УДК 006.91:004.89
DOI: 10.36871/2618-­9976.2026.05.012

Авторы

Даниил Тетеревенков,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия
Светлана Васильевна Прокопчина,
Доктор технических наук, профессор, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

В работе рассматривается применение метрологических принципов к задаче верификации качества текстовых выходов больших языковых моделей (LLM). Традиционные подходы к оценке генерации, такие как BLEU, ROUGE и человеческая экспертиза, зачастую лишены системности, воспроизводимости и метрологической прослеживаемости. Предлагается рассмотреть качество генерации как измеримую величину, к которой применимы понятия погрешности, неопределённости измерения, эталонных образцов и калибровки. В рамках предложенного подхода формализуются требования к эталонным наборам данных (референскорпусам), вводятся критерии воспроизводимости и межлабораторной сопоставимости оценок, а также обсуждаются методы установления метрологической прослеживаемости результатов верификации. Работа направлена на создание строгой, научно обоснованной основы для сравнения и сертификации LLM­систем в промышленных и исследовательских контекстах.

Ключевые слова

большие языковые модели
верификация качества генерации
метрологический подход
неопределённость измерения
калибровка
прослеживаемость
воспроизводимость

Список литературы

[1] Papineni K., Roukos S., Ward T., Zhu W.­J. BLEU: a Method for Automatic Evaluation of Machine Translation. Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, 2002. Рр. 311–318.

[2] Lin C.­Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out: Proceedings of the ACL­04 Workshop. Barcelona, 2004. Pр. 74–81.

[3] Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT. Proceedings of the ICLR. 2020.

[4] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. –2­е изд., перераб. и доп. Л.: Энергоатомиздат, 1991. 304 с.

[5] Прокопчина С.В. Байесовские  интеллектуальные  технологии  в  задачах моделирования закона распределения в условиях неопределённости: монография. М.: Издательский дом «НАУЧНАЯ БИБЛИОТЕКА», 2020. 292 с.

[6] Bernardo J.M., Smith A.F.M. Bayesian Theory. Chichester: Wiley, 2000. 586 p.

[7] Hoeffding W. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 1963, vol. 58, no. 301, рр. 13–30.

[8] Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, vol. 27, no. 3, рр. 379–423.