УДК 004.85:311.2(005.334)
DOI: 10.36871/2618­-9976.2026.03.011

Авторы

Никита Николаевич Олтян,
Аспирант, Финансовый университет при Правительстве РФ, Москва, Россия

Аннотация

Постановка проблемы. Использование больших языковых моделей для извлечения и структурирования данных из текста сопровождается недетерминизмом вывода, отсутствием формальных гарантий синтаксической и схемной корректности, а также сложностью воспроизводимого применения в промышленных и регламентированных системах.
Цель. Формализация концепции и разработка алгоритма детерминированного конвейера преобразования неструктурированного текста в структуры JSON/XML с использованием LLM, обеспечивающего корректность, типобезопасность и воспроизводимость результатов.
Результаты. Предложена архитектура детерминированного конвейера, объединяющая грамматически ограниченное декодирование, схемную валидацию, строгую типизацию и механизмы восстановления; определены инварианты корректности и сформулирован алгоритм, исключающий недетерминизм генерации.
Практическая значимость. Результаты исследования могут быть использованы при разработке надёжных и проверяемых систем структурирования данных, включая аналитические, интеграционные и ведомственные решения, требующие воспроизводимости, формальной валидации и соответствия регуляторным требованиям.

Ключевые слова

LLM
большие языковые модели
структурирование данных
детерминированный конвейер
JSON
XML
constrained decoding
валидация схем
типизация

Список литературы

[1] Олтян Н.Н. Эволюция методов извлечения и структурирования данных из текста в JSON и XML // Нейрокомпьютеры. 2025. № 6. С. 37–49.

[2] Beurer­Kellner L., Fischer M., Vechev M. Guiding LLMs the Right Way: Fast, Non­Invasive Constrained Generation // arXiv preprint arXiv:2403.06988. 2024.

[3] Geng S., Cooper H., Moskal M., Jenkins S., Berman J., Ranchin N., West R., Horvitz E., Nori H. JSONSchemaBench: A rigorous benchmark of structured outputs for language models // arXiv preprint arXiv:2501.10868. 2025.

[4] Geng S., Josifoski M., Peyrard M., West R. Grammar­constrained decoding for structured NLP tasks without finetuning // arXiv preprint arXiv:2305.13971. 2023.

[5] Korn F., Saha B., Srivastava D., Ying S. On repairing structural problems in semistructured data // Proceedings of the VLDB Endowment. 2013. Т. 6, № 9. С. 601–612.

[6] Shen Z., Wang D.Y.­B., Mishra S.S., Xu Z., Teng Y., Ding H. SLOT: Structuring the Output of Large Language Models // Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing: Industry Track. 2025. С. 472–491.

[7] Viotti J.C., Mior M.J. Blaze: Compiling JSON Schema for 10× Faster Validation // arXiv preprint arXiv:2503.02770. 2025.

[8] Yao Y., Mao S., Zhang N., Chen X., Deng S., Chen X., Chen H. Schema­aware reference as prompt improves data­efficient knowledge graph construction // Proceedings of the 46th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2023. С. 911–921.