Разработка и исследование агента на основе алгоритма deep q-network для задач управления в динамических средах
Ключевые слова:
обучение с подкреплением, Deep Q-Network, нейронные сети, Q-обучение, игровые агенты, машинное обучениеАннотация
Глубокое обучение с подкреплением (Deep Reinforcement Learning, Deep RL) является одним из наиболее перспективных направлений машинного обучения. Глубокое обучение с подкреплением является важным направлением машинного обучения, находящим применение в автономном управлении, робототехнике и игровых системах. В работе представлена реализация алгоритма Deep Q-Network (DQN) для обучения агента управлению в игре Змейка. Методика включает формирование компактного векторного представления состояния среды из 11 бинарных признаков, применение полносвязной нейронной сети для аппроксимации Q-функции, использование механизма воспроизведения опыта (Experience Replay) с буфером на 100 000 записей и стратегии эпсилон-жадного выбора (ε-greedy) для обеспечения баланса между исследованием среды и эксплуатацией полученных знаний. В ходе исследования проведено обучение агента на протяжении 500 игровых эпизодов с различными конфигурациями среды. Результаты показали устойчивый рост среднего счёта с 0 до 23.7 в процессе обучения и достижение среднего счёта 25.5 при тестировании, что на 7.6% выше финального показателя обучения. Максимальный достигнутый счёт составил 74 очка. Результаты подтверждают применимость Deep RL для решения задач управления в стохастических средах и демонстрируют способность DQN-агента к обобщению выученной стратегии.Библиографические ссылки
Chen C., Ying V., Laird D. Глубокое Q-обучение с рекуррентными нейронными сетями: отчет о проекте // CS229 Final Project Report. Stanford University. 2016. С. 1–6. URL: http://cs229.stanford.edu/proj2016/report/ChenYingLairdDeepQLearningWithRecurrentNeuralNetwords-report.pdf (дата обращения: 26.12.2025).
Mnih V., Kavukcuoglu K., Silver D. и др. Обучение игре Atari с использованием глубокого обучения с подкреплением // arXiv.org. 2013. С. 1–9. URL: https://arxiv.org/abs/1312.5602 (дата обращения: 26.12.2025).
Mnih V., Kavukcuoglu K., Silver D. и др. Управление на уровне человека с использованием глубокого обучения с подкреплением // Nature. 2015. Т. 518. № 7540. С. 529–533. DOI: 10.1038/nature14236.
Osband I., Blundell C., Pritzel A., Van Roy B. Глубокое исследование среды с использованием Bootstrapped DQN // Advances in Neural Information Processing Systems (NeurIPS). 2016. Т. 29. С. 4026–4034. URL: https://arxiv.org/abs/1602.04621 (дата обращения: 26.12.2025).
Schaul T., Quan J., Antonoglou I., Silver D. Приоритетное воспроизведение опыта // arXiv.org. 2015. С. 1–21. URL: https://arxiv.org/abs/1511.05952 (дата обращения: 26.12.2025).
Schulman J., Wolski F., Dhariwal P. и др. Алгоритмы проксимальной оптимизации политики // arXiv.org. 2017. С. 1–12. URL: https://arxiv.org/abs/1707.06347 (дата обращения: 26.12.2025).
Sutton R.S., Barto A.G. Обучение с подкреплением: введение. 2-е изд. Кембридж: MIT Press, 2018. 548 с. URL: http://incompleteideas.net/book/the-book-2nd.html (дата обращения: 26.12.2025).
Van Hasselt H., Guez A., Silver D. Глубокое обучение с подкреплением с использованием Double Q-learning // Proceedings of the AAAI Conference on Artificial Intelligence. 2016. Т. 30. № 1. С. 2094–2100. URL: https://arxiv.org/abs/1509.06461 (дата обращения: 26.12.2025).
Watkins C.J.C.H., Dayan P. Q-learning // Machine Learning. 1992. Т. 8. № 3–4. С. 279–292. DOI: 10.1007/BF00992698.
Yuwono F., Yen G.P., Christopher J. Гоночные автомобили с автопилотом: применение глубокого обучения с подкреплением // arXiv.org. 2024. С. 1–8. URL: https://arxiv.org/abs/2410.22766 (дата обращения: 26.12.2025).