ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ ФРАЗ НА ОСНОВЕ БОЛЬШИХ ЯЗЫКОВЫХ МОДЕЛЕЙ

Аннотация

Статья посвящена актуальной проблеме извлечения ключевых фраз из текстов на естест- венном языке, что является критически важной задачей в области обработки естественного языка и интеллектуального анализа текста. В ней подробно рассматриваются основные подходы к извлечению ключевых фраз (ключевых слов), включая как традиционные методы, так и совре- менные подходы на основе искусственного интеллекта. В статье рассматривается набор широко используемых методов в этой области, таких как TF-IDF, RAKE, YAKE и методы, основанные на лингвистических анализаторах (парсерах). Эти методы опираются на статистические принципы и графовые структуры, но часто сталкиваются с проблемами, связанными с недостаточной спо- собностью учитывать контекст текста. Большая языковая модель GPT-3 демонстрирует пре- восходное понимание контекста по сравнению с традиционными методами извлечения ключевых фраз. Эта продвинутая способность позволяет GPT-3 более точно идентифицировать и извле- кать релевантные ключевые фразы из текста. Сравнительный анализ с использованием эталон- ного набора данных Inspec показывает значительно более высокую производительность GPT-3 с точки зрения средней точности (Mean Average Precision, MAP). Однако следует отметить, что, несмотря на высокую точность и качество извлечения, использование больших языковых моделей может быть ограничено в реальном времени из-за их более длительного времени отклика по срав- нению с классическими статистическими методами. Таким образом, статья подчеркивает необ- ходимость дальнейших исследований в этой области для оптимизации алгоритмов извлечения ключевых фраз с учетом требований реального времени и контекста текстов

Скачивания

Опубликовано:

2024-11-10

Номер:

Раздел:

РАЗДЕЛ I. АЛГОРИТМЫ ОБРАБОТКИ ИНФОРМАЦИИ