СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПОСЛЕДОВАТЕЛЬНОЙ ВЕРИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ, ГЕНЕРИРУЕМЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ

УДК 519.233
DOI: 10.36871/2618-9976.2026.03.003

Авторы

Даниил Тетеревенков,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия
Светлана Васильевна Прокопчина,
Профессор, доктор технических наук, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

Постановка проблемы. Интенсивное внедрение больших языковых моделей (LLM) в информационноаналитические системы выдвигает задачу количественной оценки надёжности генерируемых текстов. Существующие метрики (BLEU, ROUGE, BERTScore) характеризуют лишь отдельные аспекты качества и не обеспечивают формально обоснованной оценки погрешности самого инструмента контроля. Цель. Разработать статистическую модель последовательной верификации текстовых данных, генерируемых LLM, включающую формальные характеристики погрешности каждого этапа проверки и механизм агрегации результатов. Результаты. Построена математическая модель многоэтапной верификации, в которой каждый этап описывается вероятностными характеристиками: ошибками классификации, мощностью критерия и байесовской апостериорной уверенностью. Выведены формулы агрегации погрешностей при последовательном прохождении этапов. Проведён сравнительный анализ с метриками машинного обучения. Практическая значимость. Предложенная модель обеспечивает формально обоснованную оценку степени доверия к результатам автоматической проверки текстов LLM, что необходимо для применения в системах с повышенными требованиями к достоверности информации.

Ключевые слова

большие языковые модели
последовательная верификация
статистическое моделирование
ошибки классификации
байесовская апостериорная вероятность
теория информации

Список литературы

[1] Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, 2002. Pр. 311–318.

[2] Lin C.Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out: Proceedings of the ACL04 Workshop. Barcelona, 2004. Pр. 74–81.

[3] Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // Proceedings of ICLR. 2020.

[4] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. – 2е изд. Л.: Энергоатомиздат, 1991. 304 с.

[5] Прокопчина С.В. Байесовские интеллектуальные технологии в задачах моделирования закона распределения в условиях неопределённости: монография. М.: Издательский дом «НАУЧНАЯ БИБЛИОТЕКА», 2020. 292 с.

[6] Bernardo J.M., Smith A.F.M. Bayesian Theory. Chichester: Wiley, 2000. 586 p.

[7] Reimers N., Gurevych I. SentenceBERT: Sentence Embeddings using Siamese BERTNetworks // Proceedings of EMNLP. 2019. Pр. 3982–3992.

[8] Zheng L., Chiang W.L., Sheng Y. et al. Judging LLMasaJudge with MTBench and Chatbot Arena // Advances in Neural Information Processing Systems (NeurIPS). 2023.

[9] Hanu L. Unitary team. Detoxify. 2020. URL: https://github.com/unitaryai/detoxify (дата обращения: 15.01.2025).

[10] Hoeffding W. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 1963, vol. 58, no. 301, рр. 13–30.

[11] Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, vol. 27, no. 3, рр. 379–423.

[12] Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language Models are Unsupervised Multitask Learners // OpenAI Blog. 2019.

[13] He P., Liu X., Gao J., Chen W. DeBERTa: Decodingenhanced BERT with Disentangled Attention // Proceedings of ICLR. 2021.

[14] Liu Y., Ott M., Goyal N. et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. 2019.

[15] Powers D.M.W. Evaluation: from Precision, Recall and Fmeasure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies, 2011, vol. 2, no. 1, рр. 37–63.

[16] Тетеревенков Д.Л. Экспертноориентированные методы оценки качества текстовой генерации больших языковых моделей // Мягкие измерения и вычисления. 2025. № 5. Т. 90. С. 30–37. https://doi.org/10.36871/26189976.2025.05.003.

СТАТИСТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ПОСЛЕДОВАТЕЛЬНОЙ ВЕРИФИКАЦИИ ТЕКСТОВЫХ ДАННЫХ, ГЕНЕРИРУЕМЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ

Авторы

Аннотация

Ключевые слова

Список литературы

Контакты

Карта сайта