УДК 004.65:004.8(004.9)
DOI: 10.36871/2618-9976.2025.05.005
Авторы
Никита Николаевич Олтян,
Магистрант, Финансовый университет при правительстве РФ, Лидер направления по работе с дата гипотезами, ООО «МАРС», Москва, Россия
Аннотация
В статье представлена систематизация методов преобразования полуструктурированных данных (XML и JSON) в реляционные модели с целью обеспечения их пригодности для аналитических задач и машинного обучения. Рассмотрены четыре ключевых подхода – структурный, графовый, семантический и на основе вычислительных затрат. Для каждого из них проведён анализ применимости к SQL-запросам и подготовке обучающих выборок. Особое внимание уделено сохранению семантики, минимизации избыточности и обеспечению нормализованной структуры данных. Предложенная классификация позволяет выбрать оптимальные методы преобразования в зависимости от требований к структуре, гибкости и вычислительной эффективности.
Ключевые слова
полуструктурированные данные
XML
JSON
реляционные модели
преобразование данных
нормализация
машинное обучение
SQL
семантические зависимости
p-schema