ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АДАПТИВНОГО АЛГОРИТМА УПРАВЛЕНИЯ НА БАЗЕ МЕТОДА ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ
Аннотация
Предложен и исследован алгоритм адаптивного управления двигателем постоянного тока, базирующийся на применении технологии машинного обучения с подкреплением. Дан обзор и крат- кий анализ состояния дел в области интеллектуальных систем управления приводами. Представ- лено математическое описание двигателя, приведена структурная схема обучения интеллекту- ального агента. Предложена интеллектуальная система адаптивного управления скоростью вращения двигателя, при построении которой двигатель представляется в виде черного ящика с заданными ограничениями на вход и выход. Система управления строится на базе алгоритма Q-обучения нулевого порядка. Предполагается, что выходом интеллектуального агента является управление, подаваемое на вход двигателя. Экспериментальным путем подобрано множество таких управлений, позволяющих реализовать заданную точность поддержания частоты враще- ния. В интеллектуальной системе используются приближенные табличные оценки ценности каж- дого из управлений в зависимости от желаемой и текущей частоты вращения двигателя. В на- стоящей статье проведено исследование влияния дискретности представления значений состоя- ния, используемого множества управляющих воздействий, применяемых вознаграждений, а так- же параметров алгоритма обучения на ошибку управления. Исследована чувствительность ин- теллектуальной системы управления к изменению параметров моделируемого двигателя и не из- меряемому моменту сопротивления на валу двигателя. По результатам проведенного исследова- ния сделан вывод о необходимости использования модифицированного алгоритма, в котором предполагается измерение или оценка тока статорной обмотки двигателя и использование непре- рывного упарвления. В данной постановке задачи алгоритм управления обеспечивает робастность к переменным параметрам и внешнему возмущению. Также обсуждаются вопросы аппроксимации функции ценности управления с помощью полиномов и с применением нейронной сети. Показана возможность высокой точности аппроксимации с помощью нейронной сети простой структуры
Список литературы
1. Фаворская М.Н., Пахирка А.И. Восстановление аэрофотоснимков сверхвысокого разрешения с
учетом семантических особенностей // Информатика и автоматизация. – 2024. – Т. 23 (4).
– С. 1047-1076. – DOI: 10.15622/ia.23.4.5.
2. Голубинский А.Н., Толстых А.А., Толстых М.Ю. Автоматическая генерация аннотаций научных
статей на основе больших языковых моделей // Информатика и автоматизация. – 2025. – Т. 24
(1). – С. 275-301. – https://doi.org/10.15622/ia.24.1.10.
3. Zhang D., He R., Liao X., Li F., Chen J. and Yang G. Face Forgery Detection Based on Fine-Grained
Clues and Noise Inconsistency // IEEE Transactions on Artificial Intelligence. – 2025. – Vol. 6 (1).
– P. 144-158. – DOI: 10.1109/TAI.2024.3455311.
4. Sobo A., Mubarak A., Baimagambetov A., Polatidis N. Evaluating LLMs for Code Generation in HRI:
A Comparative Study of ChatGPT, Gemini, and Claude // Applied Artificial Intelligence. – 2024.
– Vol. 39 (1). – https://doi.org/10.1080/08839514.2024.2439610.
5. Чен Х., Игнатьева С.А., Богуш Р.П., Абламейко С.В. Повторная идентификация людей в систе-
мах видеонаблюдения с использованием глубокого обучения: анализ существующих методов //
Автоматика и телемеханика. – 2023. – № 5. – C. 61-112. – DOI: 10.31857/S0005231023050057
6. Понимаш З.А., Потанин М.В. Метод и алгоритм извлечения признаков из цифровых сигналов на
базе нейросетей трансформер // Известия ЮФУ. Технические науки. – 2024. – № 6. – C. 52-64.
– DOI: 10.18522/2311-3103-2024-6-52-64.
7. Hamdan N., Medvedev M., Pshikhopov V. Method of Motion Path Planning Based on a Deep Neural
Network with Vector Input // Mekhatronika, Avtomatizatsiya, Upravlenie. – 2024. – Vol. 25(11).
– P. 559-567. – https://doi.org/10.17587/mau.25.559-567.
8. Gaiduk A.R., Martjanov O.V., Medvedev M.Yu., PshikhopovV.Kh., Hamdan N., Farhood A. Neural
network based control system for robots group operating in 2-d uncertain environment //
Mekhatronika, Avtomatizatsiya, Upravlenie. – 2020. – Vol. 21 (8). – P. 470-479. – https://doi.org/
10.17587/mau.21.470-479.
9. Саттон Р.С., Барто Э.Дж. Обучение с подкреплением: Введение. – 2-е изд.: пер. с англ.
А.А. Слинкина. – М.: ДМК Пресс, 2020. – 552 с.
10. Lei X., Zhang Z., Dong P. Dynamic Path Planning of Unknown Environment Based on Deep Reinforcement
Learning // Journal of Robotics. – V. 2018, Article ID 5781591. – 10 p. – https://doi.org/
10.1155/2018/5781591.
11. Wang B., Liu Z., Li Q., Prorok A. Mobile Robot Path Planning in Dynamic Environments Through Globally
Guided Reinforcement Learning // IEEE Robotics and Automation Letters. – 2020. – Vol. 5 (4).
– P. 6932-6939. – DOI: 10.1109/LRA.2020.3026638.
12. Srikonda S., Norris W.R., Nottage D., Soylemezoglu A. Deep Reinforcement Learning for Autonomous Dynamic
Skid Steer Vehicle Trajectory Tracking // Robotics. – 2022. – Vol. 11 (95). – https://doi.org/
10.3390/robotics11050095.
13. Van Hasselt H., Guez A. Silver D. Deep Reinforcement Learning with Double Q-Learning[C] // Proceedings
of the AAAI Conference on Artificial Intelligence. – 2016. – 30 (1).
14. Lv L.H., Zhang S.J., Ding D.R., Wang Y.X. Path Planning via an Improved DQN-Based Learning Policy //
IEEE Access. – 2019. – Vol. 7. – P. 67319-67330.
15. Ramaswamy . and Hüllermeier E. Deep Q-Learning: Theoretical Insights From an Asymptotic Analysis //
IEEE Transactions on Artificial Intelligence. – 2022. – Vol. 3 (2). – P. 139-151. – DOI:
10.1109/TAI.2021.3111142
16. Lillicrap T.P., Hunt J.J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D., Wierstra D. Continuous control
with deep reinforcement learning // arXiv:1509.02971. – 2015.
17. Fujimoto S., Hoof H.V., Meger D. Addressing Function Approximation Error in Actor-Critic Methods //
ArXiv. – 2018. – abs/1802.09477.
18. Хапкин Д.Л., Феофилов С.В. Синтез устойчивых нейросетевых регуляторов для объектов с ограни-
чителями в условиях неполной информации // Мехатроника, автоматизация, управление. – 2024.
– Т. 25 (7). – С. 345-353. – https://doi.org/10.17587/mau.25.345-353.
19. Gupta M., Jin L., Homma N. Static and Dynamic Neural Networks: From Fundamentals to Advanced
Theory. – John Wiley & Sons, Hoboken, New Jersey, 2003.
20. Жилов Р.А. Постройка ПИД-регулятора с использованием нейронных сетей // Известия Кабар-
дино-Балкарского научного центра РАН. – 2022. – № 5 109 . – С. 38-47. – DOI: 10.35330/1991-
6639-2022-5-109-38-47.
21. Nguyet T.M., Dang X.B. A neural flexible PID controller for task-space control of robotic manipulators //
Frontiers in Robotics and AI. – 2023. – Vol. 9. – P. 1-10. – DOI=10.3389/frobt.2022.975850.
22. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature.
– 2015. – No. 518 (7540). – P. 529-533.
23. Пшихопов В.Х., Медведев М.Ю. Блочный синтез робастных систем при ограничениях на управле-
ния и координаты состояния // Мехатроника, автоматизация и управление. – 2011. – № 1. – С. 2-8.
24. Pshikhopov V., Medvedev M. Multi-Loop Adaptive Control of Mobile Objects in Solving Trajectory
Tracking Tasks // Automation and Remote Control. – 2020. – Vol. 81 (11). – P. 2078-2093.
25. – https://doi.org/10.1134/S0005117920110090.
26. Пшихопов В.Х., Медведев М.Ю., Шевченко В.А. Адаптивное управление с эталонной моделью
приводом постоянного тока // Известия ЮФУ. Технические науки. – 2015. – № 2 (163). – С. 6-18.
27. Еремеев А.П., Сергеев М.Д., Петров В.С. Интеграция методов обучения с подкреплением и
нечеткой логики для интеллектуальных систем реального времени // Программные продукты и
системы. – 2023. – Т. 36 (4). – С. 600-606. – DOI: 10.15827/0236-235X.142.600-606.
28. Takuya Okano, Masaki Onishi. A Parameter Investigation of the ϵ-greedy Exploration Ratio Adaptation
Method in Multi-agent Reinforcement Learning // European Workshop on Reinforcement Learning.
– 2018. – Vol. 14.
29. Shah Asif Bashir1, Farida Khursheed, Ibrahim Abdoulahi. Adaptive -Greedy Exploration for Finite
Systems // Gedrag & Organisatie Reniew. – 2021. – Vol. 34 (04). – DOI: 10.37896/GOR34.04/044.
30. Van Hasselt H. Double Q-learning // Advances in Neural Information Processing Systems. – 2011.
– Vol. 23. – P. 2613-2622.
31. Бергер Г. Автоматизация посредством STEP 7 с использованием STL и SCL программируемых
контроллеров SIMATIC S7-300/400. – Siemens AG, Нюрнберг, 2001.