УДК 519.233
DOI: 10.36871/2618­-9976.2026.03.003

Авторы

Даниил Тетеревенков,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия
Светлана Васильевна Прокопчина,
Профессор, доктор технических наук, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

Постановка  проблемы. Интенсивное  внедрение  больших  языковых моделей (LLM)  в информационно­аналитические  системы  выдвигает  задачу  количественной  оценки  надёжности  генерируемых  текстов.  Существующие  метрики  (BLEU, ROUGE, BERTScore)  характеризуют  лишь  отдельные  аспекты  качества  и  не  обеспечивают  формально  обоснованной оценки погрешности самого инструмента контроля. Цель. Разработать  статистическую  модель  последовательной  верификации  текстовых  данных,  генерируемых  LLM, включающую  формальные  характеристики  погрешности  каждого этапа проверки и механизм агрегации результатов. Результаты. Построена  математическая  модель  многоэтапной  верификации,  в  которой  каждый  этап  описывается  вероятностными  характеристиками:  ошибками  классификации,  мощностью  критерия  и байесовской  апостериорной  уверенностью.  Выведены  формулы  агрегации  погрешностей при последовательном прохождении этапов. Проведён  сравнительный анализ с метриками машинного обучения. Практическая значимость. Предложенная модель обеспечивает  формально  обоснованную  оценку  степени  доверия  к  результатам  автоматической  проверки  текстов  LLM,  что  необходимо  для  применения  в  системах  с  повышенными  требованиями к достоверности информации.

Ключевые слова

большие языковые модели
последовательная верификация
статистическое моделирование
ошибки классификации
байесовская апостериорная вероятность
теория информации

Список литературы

[1] Papineni K., Roukos S., Ward T., Zhu W.­J. BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, 2002. Pр. 311–318.

[2] Lin C.­Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out: Proceedings of the ACL­04 Workshop. Barcelona, 2004. Pр. 74–81.

[3] Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // Proceedings of ICLR. 2020.

[4] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. – 2­е изд. Л.: Энергоатомиздат, 1991. 304 с.

[5] Прокопчина С.В. Байесовские интеллектуальные  технологии  в задачах моделирования  закона  распределения  в  условиях  неопределённости:  монография.  М.:  Издательский дом «НАУЧНАЯ БИБЛИОТЕКА», 2020. 292 с.

[6] Bernardo J.M., Smith A.F.M. Bayesian Theory. Chichester: Wiley, 2000. 586 p.

[7] Reimers N., Gurevych I. Sentence­BERT: Sentence Embeddings using Siamese BERTNetworks // Proceedings of EMNLP. 2019. Pр. 3982–3992.

[8] Zheng L., Chiang W.­L., Sheng Y. et al. Judging LLM­as­a­Judge with MT­Bench and Chatbot Arena // Advances in Neural Information Processing Systems (NeurIPS). 2023.

[9] Hanu L. Unitary team. Detoxify. 2020. URL: https://github.com/unitaryai/detoxify (дата  обращения: 15.01.2025).

[10] Hoeffding W. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 1963, vol. 58, no. 301, рр. 13–30.

[11] Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, vol. 27, no. 3, рр. 379–423.

[12] Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language Models are Unsupervised Multitask Learners // OpenAI Blog. 2019.

[13] He P., Liu X., Gao J., Chen W. DeBERTa: Decoding­enhanced BERT with Disentangled Attention // Proceedings of ICLR. 2021.

[14] Liu Y., Ott M., Goyal N. et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. 2019.

[15] Powers D.M.W. Evaluation: from Precision, Recall and F­measure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies, 2011, vol. 2, no. 1, рр. 37–63.

[16] Тетеревенков Д.Л. Экспертно­ориентированные методы оценки качества текстовой генерации больших языковых моделей // Мягкие измерения  и  вычисления. 2025. № 5. Т. 90. С. 30–37. https://doi.org/10.36871/26189976.2025.05.003.