УДК 004.65:004.8(004.9)
DOI: 10.36871/2618­-9976.2025.05.005

Авторы

Никита Николаевич Олтян,
Магистрант, Финансовый университет при правительстве РФ, Лидер направления по работе с дата гипотезами, ООО «МАРС», Москва, Россия

Аннотация

В статье представлена систематизация методов преобразования полуструктурированных данных (XML и JSON) в реляционные модели с целью обеспечения их пригодности для аналитических задач и машинного обучения. Рассмотрены четыре ключевых подхода – структурный, графовый, семантический и на основе вычислительных затрат. Для каждого из них проведён анализ применимости к SQL­-запросам и подготовке обучающих выборок. Особое внимание уделено сохранению семантики, минимизации избыточности и обеспечению нормализованной структуры данных. Предложенная классификация позволяет выбрать оптимальные методы преобразования в зависимости от требований к структуре, гибкости и вычислительной эффективности.

Ключевые слова

полуструктурированные данные
XML
JSON
реляционные модели
преобразование данных
нормализация
машинное обучение
SQL
семантические зависимости
p­-schema