УДК 336.018(045)
DOI: 10.36871/2618-9976.2025.05.004
Авторы
Ильяс Ранисович Ахметов,
Магистрант, Финансовый университет при Правительстве РФ, Москва, Россия
Аннотация
В данной статье представлен систематизированный и сравнительный обзор метрик, применяемых для оценки качества тематических моделей в задачах обработки естественного языка (NLP). Рассматриваются как традиционные метрики, такие как перплексия и когерентность тем, так и современные подходы, включая метрики на основе векторных представлений слов (WETC) и графовые методы. Анализируются достоинства и ограничения каждой из метрик, а также их применимость в различных практических сценариях. Особое внимание уделяется критериям выбора метрик в зависимости от цели моделирования и особенностей текстового корпуса. Работа может быть полезна исследователям и разработчикам, стремящимся повысить интерпретируемость и точность тематических моделей.
Ключевые слова
тематическое моделирование
метрики оценки качества
перплексия (perplexity)
когерентность тем (Topic Coherence)
PMI-Score
NPMI (Normalized PMI)
WETC (Word Embedding Topic Coherence)
Topic Diversity (TD)
графовые методы (Graph-based Coherence)