ترجمه کامپیوتر-یادگیری تقویتی-23 صفحه
سال 2013
A novel modular Q-learning architecture to improve performance under incomplete learning in a grid soccer game
معماری جدید یادگیری-Q ماژولار برای بهبود کیفیت در حین یادگیری ناقص در یک بازی فوتبال
sahar Araghi n, Abbas Khosravi, Michael Johnstone, Douglas Creighton
http://www.sciencedirect.com/science/article/pii/S0952197613000894
دانلود رایگان مقاله انگلیسی - یادگیری تقویتی -یادگیری بهبود کیفیت در حین یادگیری ناقص در یک بازی
چکیده
روش های تقویت یادگیری چند عامله شامل چندین کمبود است, که ریشه در فضای حالت محیط های چند عامله دارد.این مقاله به دو نقص از روش های یادگیری تقویتی چند عامله می پردازد, نرخ یادگیری آهسته آن و کیفیت پایین تصمیم گیری در مراحل اولیه یادگیری. متدهای پیشنهادی برروی یک بازی فوتبال اعمال شد. در روش پیشنهادی تقویت ماژولار یادگیری به منظور کاهش فضای حالت عوامل یادگیری از نظر تعدادی از عوامل از نمایی تا خطی استفاده شد. مدل ماژولار مطرح شده در اینجا شامل دو ماژول جدید, یکی ماژول جزئیی و دیگری ماژول تک می باشد. این دو ماژول جدید برای افزایش سرعت یادگیری در یک بازی فوتبال موثر هستند. ما همچنین مفاهیم مبتنی بر مثال را برای انتخاب اقدامات مناسبی که به اندازه کافی در فضای حالت در طول یادگیری تجربه نشده است را اعمال کردیم. ایده اصلی به این صورت است که از حالت های همسایه که به اندازه کافی در طول مرحله یادگیری بررسی نشده اند استفاده کرد. نتایج حاصل از آزمایش در یک محیط بازی فوتبال نشان می دهد که متد پیشنهادی ما نتایج متوسط بالاتری را نسبت به وضعیت هایی که روش پیشنهادی برروی آن ها اعمال نشده بود را نشان می دهد.
Highlights
We propose new modular structure for multi-agent reinforcement learning.
We increase the learning rate by introducing new partial and single modules.
Q-learning performance is improved for states with insufficient experience.
New methods are proposed for more reliable decision making.
Abstract
Multi-agent reinforcement learning methods suffer from several deficiencies that are rooted in the large state space of multi-agent environments. This paper tackles two deficiencies of multi-agent reinforcement learning methods: their slow learning rate, and low quality decision-making in early stages of learning. The proposed methods are applied in a grid-world soccer game. In the proposed approach, modular reinforcement learning is applied to reduce the state space of the learning agents from exponential to linear in terms of the number of agents. The modular model proposed here includes two new modules, a partial-module and a single-module. These two new modules are effective for increasing the speed of learning in a soccer game. We also apply the instance-based learning concepts, to choose proper actions in states that are not experienced adequately during learning. The key idea is to use neighbouring states that have been explored sufficiently during the learning phase. The results of experiments in a grid-soccer game environment show that our proposed methods produce a higher average reward compared to the situation where the proposed method is not applied to the modular structure.
Keywords
Multi-agent systems; Machine learning; Modular reinforcement learning; Q-learning
