УДК 550.34.013.4
DOI: 10.36871/2618-9976.2025.04.002
Авторы
Ильяс Ранисович Ахметов,
Магистрант, Финансовый университет при Правительстве Российской Федерации, Москва, Россия
Аннотация
Тематическое моделирование представляет собой мощный инструмент для автоматического выявления скрытых тем в коллекциях текстовых документов. В статье рассматриваются основные методы тематического моделирования, начиная с классических подходов, таких как Latent Semantic Analysis (LSA) и NonNegative Matrix Factorization (NNMF), и заканчивая современными нейросетевыми методами, включая Neural Topic Modeling (NTM) и BERTopic. Особое внимание уделено эволюции методов: от вероятностных моделей (PLSA, LDA) до гибких регуляризованных подходов (ARTM) и нейросетевых архитектур на основе вариационных автоэнкодеров. Анализируются преимущества и ограничения каждого метода, а также их применение в задачах обработки естественного языка. Статья предназначена для исследователей и практиков, интересующихся современными методами анализа текстовых данных.
Ключевые слова
тематическое моделирование
NLP
LSA
NNMF
PLSA
LDA
ARTM
NTM
BERTopic
глубокое обучение