ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АДАПТИВНОГО АЛГОРИТМА УПРАВЛЕНИЯ НА БАЗЕ МЕТОДА ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

А. Н. Карапеев; Е.Ю. Косенко; М. Ю. Медведев; В. Х. Пшихопов

Аннотация

Предложен и исследован алгоритм адаптивного управления двигателем постоянного тока, базирующийся на применении технологии машинного обучения с подкреплением. Дан обзор и крат- кий анализ состояния дел в области интеллектуальных систем управления приводами. Представ- лено математическое описание двигателя, приведена структурная схема обучения интеллекту- ального агента. Предложена интеллектуальная система адаптивного управления скоростью вращения двигателя, при построении которой двигатель представляется в виде черного ящика с заданными ограничениями на вход и выход. Система управления строится на базе алгоритма Q-обучения нулевого порядка. Предполагается, что выходом интеллектуального агента является управление, подаваемое на вход двигателя. Экспериментальным путем подобрано множество таких управлений, позволяющих реализовать заданную точность поддержания частоты враще- ния. В интеллектуальной системе используются приближенные табличные оценки ценности каж- дого из управлений в зависимости от желаемой и текущей частоты вращения двигателя. В на- стоящей статье проведено исследование влияния дискретности представления значений состоя- ния, используемого множества управляющих воздействий, применяемых вознаграждений, а так- же параметров алгоритма обучения на ошибку управления. Исследована чувствительность ин- теллектуальной системы управления к изменению параметров моделируемого двигателя и не из- меряемому моменту сопротивления на валу двигателя. По результатам проведенного исследова- ния сделан вывод о необходимости использования модифицированного алгоритма, в котором предполагается измерение или оценка тока статорной обмотки двигателя и использование непре- рывного упарвления. В данной постановке задачи алгоритм управления обеспечивает робастность к переменным параметрам и внешнему возмущению. Также обсуждаются вопросы аппроксимации функции ценности управления с помощью полиномов и с применением нейронной сети. Показана возможность высокой точности аппроксимации с помощью нейронной сети простой структуры

Авторы

Список литературы

1. Фаворская М.Н., Пахирка А.И. Восстановление аэрофотоснимков сверхвысокого разрешения с

учетом семантических особенностей // Информатика и автоматизация. – 2024. – Т. 23 (4).

– С. 1047-1076. – DOI: 10.15622/ia.23.4.5.

2. Голубинский А.Н., Толстых А.А., Толстых М.Ю. Автоматическая генерация аннотаций научных

статей на основе больших языковых моделей // Информатика и автоматизация. – 2025. – Т. 24

(1). – С. 275-301. – https://doi.org/10.15622/ia.24.1.10.

3. Zhang D., He R., Liao X., Li F., Chen J. and Yang G. Face Forgery Detection Based on Fine-Grained

Clues and Noise Inconsistency // IEEE Transactions on Artificial Intelligence. – 2025. – Vol. 6 (1).

– P. 144-158. – DOI: 10.1109/TAI.2024.3455311.

4. Sobo A., Mubarak A., Baimagambetov A., Polatidis N. Evaluating LLMs for Code Generation in HRI:

A Comparative Study of ChatGPT, Gemini, and Claude // Applied Artificial Intelligence. – 2024.

– Vol. 39 (1). – https://doi.org/10.1080/08839514.2024.2439610.

5. Чен Х., Игнатьева С.А., Богуш Р.П., Абламейко С.В. Повторная идентификация людей в систе-

мах видеонаблюдения с использованием глубокого обучения: анализ существующих методов //

Автоматика и телемеханика. – 2023. – № 5. – C. 61-112. – DOI: 10.31857/S0005231023050057

6. Понимаш З.А., Потанин М.В. Метод и алгоритм извлечения признаков из цифровых сигналов на

базе нейросетей трансформер // Известия ЮФУ. Технические науки. – 2024. – № 6. – C. 52-64.

– DOI: 10.18522/2311-3103-2024-6-52-64.

7. Hamdan N., Medvedev M., Pshikhopov V. Method of Motion Path Planning Based on a Deep Neural

Network with Vector Input // Mekhatronika, Avtomatizatsiya, Upravlenie. – 2024. – Vol. 25(11).

– P. 559-567. – https://doi.org/10.17587/mau.25.559-567.

8. Gaiduk A.R., Martjanov O.V., Medvedev M.Yu., PshikhopovV.Kh., Hamdan N., Farhood A. Neural

network based control system for robots group operating in 2-d uncertain environment //

Mekhatronika, Avtomatizatsiya, Upravlenie. – 2020. – Vol. 21 (8). – P. 470-479. – https://doi.org/

10.17587/mau.21.470-479.

9. Саттон Р.С., Барто Э.Дж. Обучение с подкреплением: Введение. – 2-е изд.: пер. с англ.

А.А. Слинкина. – М.: ДМК Пресс, 2020. – 552 с.

10. Lei X., Zhang Z., Dong P. Dynamic Path Planning of Unknown Environment Based on Deep Reinforcement

Learning // Journal of Robotics. – V. 2018, Article ID 5781591. – 10 p. – https://doi.org/

10.1155/2018/5781591.

11. Wang B., Liu Z., Li Q., Prorok A. Mobile Robot Path Planning in Dynamic Environments Through Globally

Guided Reinforcement Learning // IEEE Robotics and Automation Letters. – 2020. – Vol. 5 (4).

– P. 6932-6939. – DOI: 10.1109/LRA.2020.3026638.

12. Srikonda S., Norris W.R., Nottage D., Soylemezoglu A. Deep Reinforcement Learning for Autonomous Dynamic

Skid Steer Vehicle Trajectory Tracking // Robotics. – 2022. – Vol. 11 (95). – https://doi.org/

10.3390/robotics11050095.

13. Van Hasselt H., Guez A. Silver D. Deep Reinforcement Learning with Double Q-Learning[C] // Proceedings

of the AAAI Conference on Artificial Intelligence. – 2016. – 30 (1).

14. Lv L.H., Zhang S.J., Ding D.R., Wang Y.X. Path Planning via an Improved DQN-Based Learning Policy //

IEEE Access. – 2019. – Vol. 7. – P. 67319-67330.

15. Ramaswamy . and Hüllermeier E. Deep Q-Learning: Theoretical Insights From an Asymptotic Analysis //

IEEE Transactions on Artificial Intelligence. – 2022. – Vol. 3 (2). – P. 139-151. – DOI:

10.1109/TAI.2021.3111142

16. Lillicrap T.P., Hunt J.J., Pritzel A., Heess N., Erez T., Tassa Y., Silver D., Wierstra D. Continuous control

with deep reinforcement learning // arXiv:1509.02971. – 2015.

17. Fujimoto S., Hoof H.V., Meger D. Addressing Function Approximation Error in Actor-Critic Methods //

ArXiv. – 2018. – abs/1802.09477.

18. Хапкин Д.Л., Феофилов С.В. Синтез устойчивых нейросетевых регуляторов для объектов с ограни-

чителями в условиях неполной информации // Мехатроника, автоматизация, управление. – 2024.

– Т. 25 (7). – С. 345-353. – https://doi.org/10.17587/mau.25.345-353.

19. Gupta M., Jin L., Homma N. Static and Dynamic Neural Networks: From Fundamentals to Advanced

Theory. – John Wiley & Sons, Hoboken, New Jersey, 2003.

20. Жилов Р.А. Постройка ПИД-регулятора с использованием нейронных сетей // Известия Кабар-

дино-Балкарского научного центра РАН. – 2022. – № 5 109 . – С. 38-47. – DOI: 10.35330/1991-

6639-2022-5-109-38-47.

21. Nguyet T.M., Dang X.B. A neural flexible PID controller for task-space control of robotic manipulators //

Frontiers in Robotics and AI. – 2023. – Vol. 9. – P. 1-10. – DOI=10.3389/frobt.2022.975850.

22. Mnih V., Kavukcuoglu K., Silver D. et al. Human-level control through deep reinforcement learning // Nature.

– 2015. – No. 518 (7540). – P. 529-533.

23. Пшихопов В.Х., Медведев М.Ю. Блочный синтез робастных систем при ограничениях на управле-

ния и координаты состояния // Мехатроника, автоматизация и управление. – 2011. – № 1. – С. 2-8.

24. Pshikhopov V., Medvedev M. Multi-Loop Adaptive Control of Mobile Objects in Solving Trajectory

Tracking Tasks // Automation and Remote Control. – 2020. – Vol. 81 (11). – P. 2078-2093.

25. – https://doi.org/10.1134/S0005117920110090.

26. Пшихопов В.Х., Медведев М.Ю., Шевченко В.А. Адаптивное управление с эталонной моделью

приводом постоянного тока // Известия ЮФУ. Технические науки. – 2015. – № 2 (163). – С. 6-18.

27. Еремеев А.П., Сергеев М.Д., Петров В.С. Интеграция методов обучения с подкреплением и

нечеткой логики для интеллектуальных систем реального времени // Программные продукты и

системы. – 2023. – Т. 36 (4). – С. 600-606. – DOI: 10.15827/0236-235X.142.600-606.

28. Takuya Okano, Masaki Onishi. A Parameter Investigation of the ϵ-greedy Exploration Ratio Adaptation

Method in Multi-agent Reinforcement Learning // European Workshop on Reinforcement Learning.

– 2018. – Vol. 14.

29. Shah Asif Bashir1, Farida Khursheed, Ibrahim Abdoulahi. Adaptive -Greedy Exploration for Finite

Systems // Gedrag & Organisatie Reniew. – 2021. – Vol. 34 (04). – DOI: 10.37896/GOR34.04/044.

30. Van Hasselt H. Double Q-learning // Advances in Neural Information Processing Systems. – 2011.

– Vol. 23. – P. 2613-2622.

31. Бергер Г. Автоматизация посредством STEP 7 с использованием STL и SCL программируемых

контроллеров SIMATIC S7-300/400. – Siemens AG, Нюрнберг, 2001.

ИССЛЕДОВАНИЕ ИНТЕЛЛЕКТУАЛЬНОГО АДАПТИВНОГО АЛГОРИТМА УПРАВЛЕНИЯ НА БАЗЕ МЕТОДА ОБУЧЕНИЯ С ПОДКРЕПЛЕНИЕМ

Аннотация

Авторы

Список литературы

Скачивания

Опубликовано:

Номер:

Раздел:

Ключевые слова:

links

journal

index