АЛГОРИТМ ПОИСКА И ПРИОБРЕТЕНИЯ ЗНАНИЙ НА ОСНОВЕ ТЕХНОЛОГИЙ ОБРАБОТКИ И АНАЛИЗА ТЕКСТОВ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
Аннотация
Статья посвящена решению актуальной научной проблемы повышения эффективности об- работки и анализа текстовой информации при решении задач поиска и приобретения знаний. Ак- туальность данной задачи связана с необходимостью создания эффективных средств обработки накапливаемого огромного количества слабо структурированных данных, содержащих важные, иногда скрытые знания, необходимые для построения эффективных систем управления сложны- ми объектами различной природы. Предлагаемый автором алгоритм поиска и приобретения зна- ний при обработке и анализе текстовой информации, отличается применением низкоуровневых детерминированных правил, позволяющих провести качественное упрощение текста на основе исключения из текстовой информации слов, инвариантных к смыслу. Алгоритм опирается на до- менную проработку, позволяющую сформировать списки доменно-специфичных слов, что позволя- ет обеспечить высокое качество упрощения текста. В данной задаче исходными данными явля- ются потоки текстовой информации (описание профилей), извлеченных из онлайн платформ для рекрутинга, выходная информация представляется предложениями, сформированными в виде тройки «субъект-глагол-объект», отражающих гранулы знаний, полученных в процессе обработ- ки текста. Использование данного порядка единиц, составляющих предложение, обусловлено тем фактом, что данный порядок наиболее распространен в русском языке, хотя в самих текстах возможны иные вариации порядка без потери общего смысла. Основная идея алгоритма заключа- ется в разбиении большого корпуса текста на предложения с последующей фильтрацией получен- ных предложений на основании введенных пользователем ключевых слов. В последствии предло- жения разделяются на компоненты и упрощаются в зависимости от вида поступившей компо- ненты (глагольная, именная). В качестве примера в данной работе использовалась сфера марке- тинга, а ключевыми словами выступили «социальные сети». Автором разработан алгоритм поис- ка и приобретения знаний на основе технологий обработки и анализа текстов на естественном языке, а также была выполнена программная реализация предложенного алгоритма. В качестве методов оценки эффективности использовался ряд метрик: индекс Флэша-Кинкейда; индекс Колман-Лиау; автоматический индекс удобочитаемости. Проведенные вычислительные эксперимен- ты подтвердили эффективность предложенного алгоритма по сравнению с аналогами, исполь- зующими нейронные сети для решение подобных задач