ВЕРОЯТНОСТНАЯ МОДЕЛЬ МНОГОУРОВНЕВОЙ ВЕРИФИКАЦИИ ДОСТОВЕРНОСТИ ТЕКСТОВ, ГЕНЕРИРУЕМЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ

УДК 519.216
DOI: 10.36871/2618-9976.2026.03.012

Авторы

Даниил Тетеревенков,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

Постановка проблемы. Применение больших языковых моделей для генерации аналитических текстов сопровождается рисками появления фактических, логических и стилистических искажений, при этом существующие автоматические метрики не обеспечивают комплексной оценки достоверности с учётом вероятностных характеристик каждого этапа проверки.
Цель. Разработка вероятностной модели многоуровневой верификации текстов, генерируемых LLM, обеспечивающей формальное описание ошибок каждого уровня, их трансформации через цепочку проверочных модулей и итоговой оценки достоверности результата.
Результаты. Предложена математическая модель, формализующая процесс многоуровневой верификации как последовательность байесовских обновлений; выведены аналитические выражения для агрегированных ошибок первого и второго рода; продемонстрировано экспоненциальное снижение вероятности пропуска дефектных генераций при линейном росте вероятности ложных отклонений.
Практическая значимость. Результаты могут быть использованы при построении автоматизированных систем контроля качества генерируемых текстов в финансовой аналитике, регуляторной отчётности и иных областях, требующих формально обоснованной оценки достоверности.

Ключевые слова

большие языковые модели
верификация текста
байесовское обновление
ошибки первого и второго рода
многоуровневая оценка
достоверность
информационная энтропия

Список литературы

[1] Papineni K., Roukos S., Ward T., Zhu W.J. BLEU: a Method for Automatic Evaluation of Machine Translation // Proceedings of the 40th Annual Meeting of the ACL. Philadelphia, 2002. Pр. 311–318.

[2] Lin C.Y. ROUGE: A Package for Automatic Evaluation of Summaries // Text Summarization Branches Out: Proceedings of the ACL04 Workshop. Barcelona, 2004. Pр. 74–81.

[3] Zhang T., Kishore V., Wu F., Weinberger K.Q., Artzi Y. BERTScore: Evaluating Text Generation with BERT // Proceedings of ICLR. 2020.

[4] Новицкий П.В., Зограф И.А. Оценка погрешностей результатов измерений. – 2е изд. Л.: Энергоатомиздат, 1991. 304 с.

[5] Прокопчина С.В. Байесовские интеллектуальные технологии в задачах моделирования закона распределения в условиях неопределённости: монография. М.: Издательский дом «НАУЧНАЯ БИБЛИОТЕКА», 2020. 292 с.

[6] Bernardo J.M., Smith A.F.M. Bayesian Theory. Chichester: Wiley, 2000. 586 p.

[7] Zheng L., Chiang W.L., Sheng Y. et al. Judging LLMasaJudge with MTBench and Chatbot Arena // Advances in Neural Information Processing Systems (NeurIPS). 2023.

[8] Hanu L. Unitary team. Detoxify. 2020. URL: https://github.com/unitaryai/detoxify (дата обращения: 15.01.2025).

[9] Hoeffding W. Probability Inequalities for Sums of Bounded Random Variables. Journal of the American Statistical Association, 1963, vol. 58, no. 301, рр. 13–30.

[10] Radford A., Wu J., Child R., Luan D., Amodei D., Sutskever I. Language Models are Unsupervised Multitask Learners // OpenAI Blog. 2019.

[11] Reimers N., Gurevych I. SentenceBERT: Sentence Embeddings using Siamese BERTNetworks // Proceedings of EMNLP. 2019. Pр. 3982–3992.

[12] He P., Liu X., Gao J., Chen W. DeBERTa: Decodingenhanced BERT with Disentangled Attention // Proceedings of ICLR. 2021.

[13] Liu Y., Ott M., Goyal N. et al. RoBERTa: A Robustly Optimized BERT Pretraining Approach // arXiv preprint arXiv:1907.11692. 2019.

[14] Powers D.M.W. Evaluation: from Precision, Recall and Fmeasure to ROC, Informedness, Markedness and Correlation. Journal of Machine Learning Technologies, 2011, vol. 2, no. 1, рр. 37–63.

[15] Shannon C.E. A Mathematical Theory of Communication. The Bell System Technical Journal, 1948, vol. 27, no. 3, рр. 379–423.

ВЕРОЯТНОСТНАЯ МОДЕЛЬ МНОГОУРОВНЕВОЙ ВЕРИФИКАЦИИ ДОСТОВЕРНОСТИ ТЕКСТОВ, ГЕНЕРИРУЕМЫХ БОЛЬШИМИ ЯЗЫКОВЫМИ МОДЕЛЯМИ

Авторы

Аннотация

Ключевые слова

Список литературы

Контакты

Карта сайта