УДК 550.34.013.4
DOI: 10.36871/2618-­9976.2025.04.002

Авторы

Ильяс Ранисович Ахметов,
Магистрант, Финансовый университет при Правительстве Российской Федерации, Москва, Россия

Аннотация

Тематическое моделирование представляет собой мощный инструмент для автоматического выявления скрытых тем в коллекциях текстовых документов. В статье рассматриваются основные методы тематического моделирования, начиная с классических подходов, таких как Latent Semantic Analysis (LSA) и Non­Negative Matrix Factorization (NNMF), и заканчивая современными нейросетевыми методами, включая Neural Topic Modeling (NTM) и BERTopic. Особое внимание уделено эволюции методов: от вероятностных моделей (PLSA, LDA) до гибких регуляризованных подходов (ARTM) и нейросетевых архитектур на основе вариационных автоэнкодеров. Анализируются преимущества и ограничения каждого метода, а также их применение в задачах обработки естественного языка. Статья предназначена для исследователей и практиков, интересующихся современными методами анализа текстовых данных.

Ключевые слова

тематическое моделирование
NLP
LSA
NNMF
PLSA
LDA
ARTM
NTM
BERTopic
глубокое обучение