УДК 004
DOI: 10.36871/ek.up.p.r.2026.04.10.027
Авторы
Сайха Сайд-Ахмедовна Хаджимурадова,
Арби Саид-Ахмедович Хаджимурадов,
Грозненский государственный нефтяной технический университет имени академика М.Д. Миллионщикова, Грозный, Россия
Аннотация
В статье исследуются теоретические и прикладные аспекты построения информационных технологий интеллектуального извлечения знаний из слабоструктурированных данных, функционирующих в условиях неопределённости и противоречивости информации, поступающей из разнородных источников, что представляет собой актуальную проблему современного интеллектуального анализа данных и систем поддержки принятия решений, поскольку значительная часть информации, генерируемой в экономической, юридической, медицинской, научно-технической и других сферах, представлена в виде текстов на естественных языках, документов с переменной структурой, веб-страниц, сообщений электронной почты, данных социальных сетей, которые не укладываются в жёсткие рамки реляционных таблиц и характеризуются неполнотой, неточностью, противоречивостью и неоднозначностью. На основе синтеза положений компьютерной лингвистики, теории информационных систем, методов машинного обучения и теории нечётких множеств рассматриваются основные этапы технологического процесса извлечения знаний из слабоструктурированных данных, включая этап сбора и интеграции данных из разнородных источников, этап предварительной обработки и нормализации текстов, этап извлечения структуры и семантического аннотирования, этап разрешения противоречий и оценки достоверности, этап построения онтологий и семантических сетей, а также этап визуализации и интерпретации извлечённых знаний. Анализируются методы интеллектуального анализа текстов, применяемые на каждом из этапов, включая методы токенизации, лемматизации и стемминга, методы распознавания именованных сущностей, методы извлечения отношений и событий, методы тематического моделирования, методы анализа тональности, а также методы классификации и кластеризации документов.
Ключевые слова
слабоструктурированные данные, извлечение знаний, неопределённость, противоречивость
Список литературы
- Алексеева Е.А., Ушницкая С.Е., Алексеева Г.И. Использование онтологий в информационных системах // Искусственный интеллект. – 2023. – № 2. – С. 45–59.
- Большакова Е.И., Кляшинский Э.С., Ландэ Д.В. Обработка естественного языка: от теории к практике. – М.: Техносфера, 2021. – 512 с.
- Васильев А.П., Козлов Д.А. Извлечение знаний из слабоструктурированных данных: обзор методов и систем // Информационные технологии и вычислительные системы. – 2024. – № 3. – С. 34–51.
- Воронцов К.В., Потапенко А.А. Методы тематического моделирования в анализе текстовых коллекций // Искусственный интеллект и принятие решений. – 2020. – № 4. – С. 34–48.
- Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем. – СПб.: Питер, 2019. – 384 с.
- Гусев В.Д., Тулупьев А.Л. Извлечение информации из слабоструктурированных данных: методы и модели. – СПб.: Наука, 2019. – 296 с.
- Добров Б.В., Лукашевич Н.В. Семантические технологии в обработке естественного языка. – М.: ИНФРА-М, 2022. – 384 с.
- Копылов А.В., Соколов А.Н. Интеллектуальный анализ текстов: методы извлечения сущностей и отношений // Информационные технологии и вычислительные системы. – 2021. – № 2. – С. 45–58.
- Лебедев А.А., Михайлова О.В. Методы разрешения противоречий в интеллектуальном анализе данных // Искусственный интеллект и принятие решений. – 2025. – № 1. – С. 23–41.
- Лукашевич Н.В., Добров Б.В. Лингвистическое обеспечение систем извлечения информации // Вестник РГГУ. – 2023. – № 3. – С. 112–128.

