ИЗВЛЕЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ КОРТЕЖЕЙ ИЗ ТЕКСТА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ СИНТЕТИЧЕСКИХ ДАННЫХ

А.Н. Целых; И. А. Валухов; Л.А. Целых

Аннотация

Рассматривается проблема разработки модели извлечения полных причинных кортежей из неструктурированных текстов для представления ситуаций принятий решений в сложных социо- гуманитарных средах. Совокупность извлекаемых кортежей из определенного набора текстов представляет собой связанные сущности конкретной среды, что позволяет создать причинно- следственные графы. В этой статье предлагается модель извлечения причинно-следственных связей с использованием предобученной модели BERT с дообучением на основе дополнительных признаков. Для уточнения причинной классификации модель использует два вида признаков (кау- зальность глаголов и метрики качества причинного влияния) для распознавания причинного кор- тежа, автоматически изучает семантические признаки из предложений, повышая точность из- влечения. Предварительная обработка текста осуществляется с помощью библиотеки SpaCy с открытым исходным кодом. Извлеченные причинно-следственные кортежи в формате <фраза причины, фраза глагола, фраза следствия, полярность> легко трансформируется в соответст- вующие элементы графа <исходящий узел, направление связи, входящий узел, знак веса связи> и далее могут быть использованы для построения направленного взвешенного знакового графа с детерминированной причинностью на дугах. В целях снижения зависимости от внешних знаний для дообучения и тестирования модели BERT используются синтетически сгенерированные анно- тированые наборы данных. Экспериментальные результаты показывают, что точность извлече- ния причинно-следственных связей на синтетических данных достигает 94%, а значение F1 – 95%. Преимуществами представленного технологического решения является то, что модель не требует высоких эксплуатационных затрат, реализована на компьютере со стандартными характеристиками, использует свободное программное обеспечение, что делает ее доступной для широкого круга пользователей. Ожидается, что предложенная модель может быть использована для автоматизации анализа текстов и поддержки принятия решений в условиях высокой неопре- деленности, что особенно актуально для социогуманитарных сред.

Авторы

Список литературы

1. Li Z. et al. Causality extraction based on self-attentive BiLSTM-CRF with transferred embeddings,

Neurocomputing, 2021, Vol. 423, pp. 207-219.

2. Banko M., Etzioni O. The Tradeoffs Between Open and Traditional Relation Extraction, Annual

Meeting of the Association for Computational Linguistics, 2008.

3. Shao Y. et al. Extraction of causal relations based on SBEL and BERT model, Database, 2021, Vol. 2021.

4. Zhao X. et al. A Comprehensive Survey on Relation Extraction: Recent Advances and New Frontiers, 2023.

5. Bojduj B.N. Extraction of Causal-Association Networks from Unstructured Text Data. San Luis

Obispo. California: California Polytechnic State University, 2009, 61 p.

6. Alibage A. Achieving High Reliability Organizations Using Fuzzy Cognitive Maps - the Case of

Offshore Oil and Gas. Portland, OR: Portland State University, 2020, 342 p.

7. An N. et al. Extracting causal relations from the literature with word vector mapping, Comput. Biol.

Med., 2019, Vol. 115, pp. 103524.

8. Devlin J. et al. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,

2018.

9. Paulheim H. Knowledge graph refinement: A survey of approaches and evaluation methods, Semant.

Web, ed. Cimiano P., 2016, Vol. 8, No. 3, pp. 489-508.

10. Kulikowski C.A., Weiss S.M. Representation of Expert Knowledge for Consultation: The CASNET and

EXPERT Projects, Artificial Intelligence in Medicine. Routledge, 2019, pp. 21-55.

11. Kosko B. Hidden patterns in combined and adaptive knowledge networks, Int. J. Approx. Reason,

1988, Vol. 2, No. 4, pp. 377-393.

12. Yang J., Han S.C., Poon J. A survey on extraction of causal relations from natural language text,

Knowl. Inf. Syst., 2022, Vol. 64, No. 5, pp. 1161-1186.

13. Park J., Cardie C. Identifying Appropriate Support for Propositions in Online User Comments,

Proceedings of the First Workshop on Argumentation Mining. Stroudsburg, PA, USA: Association for

Computational Linguistics, 2014, pp. 29-38.

14. Job S. et al. Exploring Causal Learning through Graph Neural Networks: An In-depth Review, 2023.

15. Li Z. et al. CausalBERT: Injecting Causal Knowledge Into Pre-trained Models with Minimal

Supervision, ArXiv. 2021, Vol. abs/2107.0.

16. Felgueira T. et al. The Impact of Feature Causality on Normal Behaviour Models for SCADA-based

Wind Turbine Fault Detection, 2019.

17. Tselykh A., Vasilev V., Tselykh L. A Method for Modeling the Control Impact Strategy Based on the

Mental Frame of References of the Decision-Maker, 2023, pp. 315-324.

18. Tselykh A. et al. Influence control method on directed weighted signed graphs with deterministic

causality, Ann. Oper. Res., 2022, Vol. 311, No. 2, pp. 1281-1305.

19. Tselykh A., Vasilev V., Tselykh L. Assessment of influence productivity in cognitive models, Artif.

Intell. Rev., 2020.

20. Fellbaum C. WordNet / ed. Fellbaum C. The MIT Press, 1998.

21. Vasiliev Y. Natural language processing with Python and spaCy: A practical introduction. No Starch

Press, 2020.

22. Schmitt X. et al. A Replicable Comparison Study of NER Software: StanfordNLP, NLTK, OpenNLP,

SpaCy, Gate, 2019 Sixth International Conference on Social Networks Analysis, Management and

Security (SNAMS). IEEE, 2019, pp. 338-343.

ИЗВЛЕЧЕНИЕ ПРИЧИННО-СЛЕДСТВЕННЫХ КОРТЕЖЕЙ ИЗ ТЕКСТА НА ОСНОВЕ ГЛУБОКОГО ОБУЧЕНИЯ С ИСПОЛЬЗОВАНИЕМ СИНТЕТИЧЕСКИХ ДАННЫХ

Аннотация

Авторы

Список литературы

Скачивания

Опубликовано:

Номер:

Раздел:

Ключевые слова:

links

journal

index