УДК 004.89:004.032.26
DOI: 10.36871/2618­-9976.2026.05.003

Авторы

Никита Николаевич Олтян,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия,
Светлана Васильевна Прокопчина,
Доктор технических наук, профессор, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

В работе рассматривается архитектура детерминируемого конвейера структурирования неструктурированных текстовых данных с использованием больших языковых моделей (LLM). Описывается интеграция вероятностной генерации языковой модели с формальными механизмами контроля, включая грамматически ограниченное декодирование, схемную валидацию и строгую типизацию. Показано, как такая архитектура позволяет преобразовать стохастический вывод LLM в воспроизводимый процесс получения корректных структурированных данных.

Ключевые слова

большие языковые модели
извлечение информации
структурирование данных
детерминируемый конвейер
грамматически ограниченное
декодирование
схемная валидация

Список литературы

[1] Олтян Н.Н. Эволюция методов извлечения и структурирования данных из текста в JSON и XML // Нейрокомпьютеры. 2025. № X. С. 37–49.

[2] Beurer­Kellner L., Fischer M., Vechev M. Guiding LLMs the Right Way: Fast, Non­Invasive Constrained Generation // arXiv preprint arXiv:2403.06988. 2024.

[3] Geng S., Cooper H., Moskal M., Jenkins S., Berman J., Ranchin N., West R., Horvitz E., Nori H. JSONSchemaBench: A rigorous benchmark of structured outputs for language models // arXiv preprint arXiv:2501.10868. 2025.

[4] Geng S., Josifoski M., Peyrard M., West R. Grammar­constrained decoding for structured NLP tasks without finetuning // arXiv preprint arXiv:2305.13971. 2023.

[5] Korn F., Saha B., Srivastava D., Ying S. On repairing structural problems in semistructured data. Proceedings of the VLDB Endowment, 2013, vol. 6, no. 9, рр. 601–612.

[6] Yao Y., Mao S., Zhang N., Chen X., Deng S., Chen X., Chen H. Schema­aware reference as prompt improves data­efficient knowledge graph construction // Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023. Рр. 911–921.