УДК 336.018(045)
DOI: 10.36871/2618-­9976.2025.05.004

Авторы

Ильяс Ранисович Ахметов,
Магистрант, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

В данной статье представлен систематизированный и сравнительный обзор метрик, применяемых для оценки качества тематических моделей в задачах обработки естественного языка (NLP). Рассматриваются как традиционные метрики, такие как перплексия и когерентность тем, так и современные подходы, включая метрики на основе векторных представлений слов (WETC) и графовые методы. Анализируются достоинства и ограничения каждой из метрик, а также их применимость в различных практических сценариях. Особое внимание уделяется критериям выбора метрик в зависимости от цели моделирования и особенностей текстового корпуса. Работа может быть полезна исследователям и разработчикам, стремящимся повысить интерпретируемость и точность тематических моделей.

Ключевые слова

тематическое моделирование
метрики оценки качества
перплексия (perplexity)
когерентность тем (Topic Coherence)
PMI­-Score
NPMI (Normalized PMI)
WETC (Word Embedding Topic Coherence)
Topic Diversity (TD)
графовые методы (Graph­-based Coherence)