УДК 004.89:004.032.26
DOI: 10.36871/2618-9976.2026.05.003
Авторы
Никита Николаевич Олтян,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия,
Светлана Васильевна Прокопчина,
Доктор технических наук, профессор, Финансовый университет при Правительстве РФ, Москва, Россия
Аннотация
В работе рассматривается архитектура детерминируемого конвейера структурирования неструктурированных текстовых данных с использованием больших языковых моделей (LLM). Описывается интеграция вероятностной генерации языковой модели с формальными механизмами контроля, включая грамматически ограниченное декодирование, схемную валидацию и строгую типизацию. Показано, как такая архитектура позволяет преобразовать стохастический вывод LLM в воспроизводимый процесс получения корректных структурированных данных.
Ключевые слова
большие языковые модели
извлечение информации
структурирование данных
детерминируемый конвейер
грамматически ограниченное
декодирование
схемная валидация
Список литературы
[1] Олтян Н.Н. Эволюция методов извлечения и структурирования данных из текста в JSON и XML // Нейрокомпьютеры. 2025. № X. С. 37–49.
[2] BeurerKellner L., Fischer M., Vechev M. Guiding LLMs the Right Way: Fast, NonInvasive Constrained Generation // arXiv preprint arXiv:2403.06988. 2024.
[3] Geng S., Cooper H., Moskal M., Jenkins S., Berman J., Ranchin N., West R., Horvitz E., Nori H. JSONSchemaBench: A rigorous benchmark of structured outputs for language models // arXiv preprint arXiv:2501.10868. 2025.
[4] Geng S., Josifoski M., Peyrard M., West R. Grammarconstrained decoding for structured NLP tasks without finetuning // arXiv preprint arXiv:2305.13971. 2023.
[5] Korn F., Saha B., Srivastava D., Ying S. On repairing structural problems in semistructured data. Proceedings of the VLDB Endowment, 2013, vol. 6, no. 9, рр. 601–612.
[6] Yao Y., Mao S., Zhang N., Chen X., Deng S., Chen X., Chen H. Schemaaware reference as prompt improves dataefficient knowledge graph construction // Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023. Рр. 911–921.

