УДК 519.216
DOI: 10.36871/2618-9976.2026.03.012
Авторы
Даниил Тетеревенков,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия
Аннотация
Постановка проблемы. Применение больших языковых моделей для генерации аналитических текстов сопровождается рисками появления фактических, логических и стилистических искажений, при этом существующие автоматические метрики не обеспечивают комплексной оценки достоверности с учётом вероятностных характеристик каждого этапа проверки.
Цель. Разработка вероятностной модели многоуровневой верификации текстов, генерируемых LLM, обеспечивающей формальное описание ошибок каждого уровня, их трансформации через цепочку проверочных модулей и итоговой оценки достоверности результата.
Результаты. Предложена математическая модель, формализующая процесс многоуровневой верификации как последовательность байесовских обновлений; выведены аналитические выражения для агрегированных ошибок первого и второго рода; продемонстрировано экспоненциальное снижение вероятности пропуска дефектных генераций при линейном росте вероятности ложных отклонений.
Практическая значимость. Результаты могут быть использованы при построении автоматизированных систем контроля качества генерируемых текстов в финансовой аналитике, регуляторной отчётности и иных областях, требующих формально обоснованной оценки достоверности.
Ключевые слова
большие языковые модели
верификация текста
байесовское обновление
ошибки первого и второго рода
многоуровневая оценка
достоверность
информационная энтропия
Список литературы
[1] Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, 2002. Pр. 311–318.
[2] Lin C.Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out: Proceedings of the ACL04 Workshop. Barcelona, 2004. Pр. 74–81.
[3] Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // Proceedings of ICLR. 2020.
[4] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. – 2е изд. Л.: Энергоатомиздат, 1991. 304 с.
[5] Прокопчина С.В. Байесовские интеллектуальные технологии в задачах моделирования закона распределения в условиях неопределённости: монография. М.: Издательский дом «НАУЧНАЯ БИБЛИОТЕКА», 2020. 292 с.
[6] Bernardo J.M., Smith A.F.M. Bayesian Theory. Chichester: Wiley, 2000. 586 p.
[7] Zheng L., Chiang W.L., Sheng Y. et al. Judging LLMasaJudge with MTBench and Chatbot Arena // Advances in Neural Information Processing Systems (NeurIPS). 2023.
[8] Hanu L. Unitary team. Detoxify. 2020. URL: https://github.com/unitaryai/detoxify (дата обращения: 15.01.2025).
[9] Hoeffding W. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 1963, vol. 58, no. 301, рр. 13–30.
[10] Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language Models are Unsupervised Multitask Learners // OpenAI Blog. 2019.
[11] Reimers N., Gurevych I. SentenceBERT: Sentence Embeddings using Siamese BERTNetworks // Proceedings of EMNLP. 2019. Pр. 3982–3992.
[12] He P., Liu X., Gao J., Chen W. DeBERTa: Decodingenhanced BERT with Disentangled Attention // Proceedings of ICLR. 2021.
[13] Liu Y., Ott M., Goyal N. et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. 2019.
[14] Powers D.M.W. Evaluation: from Precision, Recall and Fmeasure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies, 2011, vol. 2, no. 1, рр. 37–63.
[15] Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, vol. 27, no. 3, рр. 379–423.

