УДК 004.85:311.2(005.334)
DOI: 10.36871/2618-9976.2026.03.011
Авторы
Никита Николаевич Олтян,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия
Аннотация
Постановка проблемы. Использование больших языковых моделей для извлечения и структурирования данных из текста сопровождается недетерминизмом вывода, отсутствием формальных гарантий синтаксической и схемной корректности, а также сложностью воспроизводимого применения в промышленных и регламентированных системах.
Цель. Формализация концепции и разработка алгоритма детерминированного конвейера преобразования неструктурированного текста в структуры JSON/XML с использованием LLM, обеспечивающего корректность, типобезопасность и воспроизводимость результатов.
Результаты. Предложена архитектура детерминированного конвейера, объединяющая грамматически ограниченное декодирование, схемную валидацию, строгую типизацию и механизмы восстановления; определены инварианты корректности и сформулирован алгоритм, исключающий недетерминизм генерации.
Практическая значимость. Результаты исследования могут быть использованы при разработке надёжных и проверяемых систем структурирования данных, включая аналитические, интеграционные и ведомственные решения, требующие воспроизводимости, формальной валидации и соответствия регуляторным требованиям.
Ключевые слова
LLM
большие языковые модели
структурирование данных
детерминированный конвейер
JSON
XML
constrained decoding
валидация схем
типизация
Список литературы
[1] Олтян Н.Н. Эволюция методов извлечения и структурирования данных из текста в JSON и XML // Нейрокомпьютеры. 2025. № 6. С. 37–49.
[2] BeurerKellner L., Fischer M., Vechev M. Guiding LLMs the Right Way: Fast, NonInvasive Constrained Generation // arXiv preprint arXiv:2403.06988. 2024.
[3] Geng S., Cooper H., Moskal M., Jenkins S., Berman J., Ranchin N., West R., Horvitz E., Nori H. JSONSchemaBench: A rigorous benchmark of structured outputs for language models // arXiv preprint arXiv:2501.10868. 2025.
[4] Geng S., Josifoski M., Peyrard M., West R. Grammarconstrained decoding for structured NLP tasks without finetuning // arXiv preprint arXiv:2305.13971. 2023.
[5] Korn F., Saha B., Srivastava D., Ying S. On repairing structural problems in semistructured data // Proceedings of the VLDB Endowment. 2013. Т. 6, № 9. С. 601–612.
[6] Shen Z., Wang D.Y.B., Mishra S.S., Xu Z., Teng Y., Ding H. SLOT: Structuring the Output of Large Language Models // Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2025. С. 472–491.
[7] Viotti J.C., Mior M.J. Blaze: Compiling JSON Schema for 10× Faster Validation // arXiv preprint arXiv:2503.02770. 2025.
[8] Yao Y., Mao S., Zhang N., Chen X., Deng S., Chen X., Chen H. Schemaaware reference as prompt improves dataefficient knowledge graph construction // Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023. С. 911–921.

