РАЗРАБОТКА МОДЕЛИ СЕМАНТИЧЕСКОЙ СЕГМЕНТАЦИИ RTC-SAM ДЛЯ ОПРЕДЕЛЕНИЯ ПРЕПЯТСТВИЙ НА ПУТИ МОБИЛЬНОГО РОБОТА

Аннотация

Задача определения препятствий перед мобильным роботом успешно и давно решена с примене- нием лазерных и ультразвуковых датчиков. Однако, препятствия, не обнаруживаемые такими видами датчиков, могут угрожать безопасности робота. Для их обнаружения в работе предлагается исполь- зовать систему технического зрения (СТЗ), информацию с которой обрабатывает нейронная сеть семантической сегментации, возвращающая маску препятствия на кадре и его класс. Основой для та- кой сети стала сеть универсальной сегментации SAM, требующая доработки для применения к задаче семантической сегментации. Особенность данной сети состоит в ее универсальной применимости, то есть возможности выделения любых объектов в произвольных условиях съемки. При этом SAM не предсказывает семантику объекта. В данной работе предложен дополнительный модуль, позволяю- щий реализовать семантическую сегментацию за счет классификации признаков выделяемых объек- тов. Обоснована возможность использования такого модуля для решения задачи дополнения выхода сети новой информацией. Результат классификации далее поступает в тот же алгоритм фильтра- ции, что и маски, чтобы гарантировать соответствие между полученным результатом универсаль- ной сети и дополняющего модуля. После интеграции модуля с моделью получена новая модель семанти- ческой сегментации, названная в работе RTC-SAM. С ее помощью проведена семантическая сегмента- ция общедоступного набора данных с изображениями открытой местности. Полученный результат в 45 % по метрике IoU превосходит результат существующих методов на 13 %. Показанные в работе изображения результатов применения новой сети позволяют убедиться в ее работоспособности. Также описано тестирование разработанного решения с проведением исследования быстродействия разработанной модели на ПК и мобильном вычислителе. Алгоритм на мобильном вычислителе показы- вает недостаточную скорость для выхода в режим реального времени – больше 3,5 секунд на обра- ботку одного кадра. В связи с этим, одно из направлений дальнейших исследований в области повыше- ния быстродействия системы.

Список литературы

1. Peng Y. et al. The obstacle detection and obstacle avoidance algorithm based on 2-d lidar // 2015 IEEE

international conference on information and automation. – IEEE, 2015. – P. 1648-1653.

2. Gibbs G., Jia H., Madani I. Obstacle detection with ultrasonic sensors and signal analysis metrics //

Transportation Research Procedia. – 2017. – Vol. 28. – P. 173-182.

3. Zhao H. et al. Pyramid scene parsing network // Proceedings of the IEEE confer-ence on computer

vision and pattern recognition. – 2017. – P. 2881-2890.

4. Xie E. et al. SegFormer: Simple and efficient design for semantic segmentation with transformers //

Advances in neural information processing systems. – 2021. – Vol. 34. – P. 12077-12090.

5. Kirillov A. et al. Segment anything // Proceedings of the IEEE/CVF International Conference on

Computer Vision. – 2023. – P. 4015-4026.

6. Архипов А.Е., Фомин И.С., Матвеев В.Д. Комплексирование моделей сегментации, сопровож-

дения и классификации для решения задач видеоаналитики // Известия ЮФУ. Технические

науки. – 2024. – № 1.

7. Cheng B., Schwing A., Kirillov A. Per-pixel classification is not all you need for semantic segmentation

// Advances in Neural Information Processing Systems. – 2021. – Vol. 34. – P. 17864-17875.

8. Anthropic A.I. Claude 3.5 sonnet model card addendum // Claude-3.5 Model Card. – 2024. – Vol. 3.

9. Kalyan K.S. A survey of GPT-3 family large language models including ChatGPT and GPT-4 // Natural

Language Processing Journal. – 2024. – Vol. 6. – P. 100048.

10. Chen T. et al. A simple framework for contrastive learning of visual representations // International

conference on machine learning. – PMLR, 2020. – P. 1597-1607.

11. Radford A. et al. Learning transferable visual models from natural language super-vision // International

conference on machine learning. – PMLR, 2021. – P. 8748-8763.

12. Simonyan K. Very deep convolutional networks for large-scale image recognition // arXiv preprint

arXiv:1409.1556. – 2014.

13. Jeong S., Kim H., Cho Y. Diter: Diverse terrain and multi-modal dataset for field robot navigation in

outdoor environments // IEEE Sensors Letters. – 2024.

14. Shah D. et al. Rapid exploration for open-world navigation with latent goal models // arXiv preprint

arXiv:2104.05859. – 2021.

15. Shah D. et al. Ving: Learning open-world navigation with visual goals //2021 IEEE International Conference

on Robotics and Automation (ICRA). – IEEE, 2021. – P. 13215-13222.

16. Wigness M. et al. A rugd dataset for autonomous navigation and visual perception in unstructured

outdoor environments // 2019 IEEE/RSJ International Conference on Intelligent Robots and Systems

(IROS). – IEEE, 2019. – P. 5000-5007.

17. Jiang P. et al. Rellis-3d dataset: Data, benchmarks and analysis // 2021 IEEE international conference

on robotics and automation (ICRA). – IEEE, 2021. – P. 1110-1116.

18. Amari S. Backpropagation and stochastic gradient descent method // Neurocomputing. – 1993. – Vol. 5,

No. 4-5. – P. 185-196.

19. He K. et al. Deep residual learning for image recognition // Proceedings of the IEEE conference on

computer vision and pattern recognition. – 2016. – P. 770-778.

20. Xiao T. et al. Unified perceptual parsing for scene understanding // Proceedings of the European conference

on computer vision (ECCV). – 2018. – P. 418-434.

Скачивания

Опубликовано:

2025-04-27

Номер:

Раздел:

РАЗДЕЛ III. СВЯЗЬ, НАВИГАЦИЯ И НАВЕДЕНИЕ

Ключевые слова:

Нейронная сеть, сегментация, классификация векторов, вектор представлений, система технического зрения, препятствия