УДК 004.8:004.738.2
DOI: 10.36871/2618-­9976.2025.05.003

Авторы

Д.Л. Тетеревенков,
Аспирант, Финансовый университет при Правительстве Российской Федерации, Москва, Россия

Аннотация

Данная работа посвящена систематическому анализу подходов, в которых ключевым источником надёжных суждений остаётся человеческая, экспертная разметка. Целью работы является выявление сильных и слабых сторон ручной оценки по сравнению с традиционными автоматическими метриками (BLEU, ROUGE, BERTScore и др.) и современными схемами LLM-­as-­a-­Judge. В основу анализа положены результаты исследований 2023–2025 гг., охватывающих как зарубежные (OpenAI, Anthropic, DeepMind), так и отечественные инициативы по созданию инструктивных бенчмарков. Ручная оценка подтверждена как «золотой стандарт» благодаря учёту глубинного смысла и здравого смысла экспертов, однако демонстрирует низкую масштабируемость и высокую стоимость. Автоматические n­граммные метрики часто расходятся с мнением специалистов на открытых задачах. Новейший подход LLM-­as­-a­Judge обеспечивает высокое совпадение с человеческими решениями, но подвержен собственным систематическим смещениям и требует калибровки на базе экспертной разметки. Научная новизна работы состоит в комплексной классификации экспертно­ориентированных методик и формулировке практических рекомендаций по их интеграции с LLM-­оценщиками. Практическая значимость заключается в возможности сокращения затрат на аннотацию при сохранении точности оценки при разработке и эксплуатации LLM-­систем.

Ключевые слова

большие языковые модели
экспертная разметка
оценка качества текстовой генерации
автоматические метрики
LLM­-as-­a­-Judge
следование инструкциям
гибридная методология
сравнительный анализ