УДК 004.942:519.6
DOI: 10.36871/ek.up.p.r.2025.03.01.016
Авторы
Андрей Юрьевич Гришин,
Московский физико-технический институт (национальный исследовательский университет), Долгопрудный, Московская область, Россия; Отдел по борьбе с недобросовестным использованием инсайдерской информации и манипулированием рынком Московской биржи, Москва, Россия
Аннотация
Основной проблемой любого подхода к машинному обучению является однофазность всего процесса. Исходное пространство признаков преобразуется таким образом, чтобы все данные соответствовали более-менее стандартным нормальным распределениям, после чего запускается модель, и в результате получаются выходные данные. Однако в настоящей статье рассматривается другая сторона вопроса. А что будет, если нелинейным способом преобразовать исходное пространство признаков и уже к новому пространству применить некоторый алгоритм? Представлено техническое объединение исправления геометрии пространства и последующее решение задачи формирования векторных образов для объектов панельных данных. В конце исследования приведено сравнение результатов как с ранее предложенными моделями, так и самого алгоритма с собой с учетом модификаций функций потерь. Результат показывает преимущество совместного обучения рассмотренных моделей упрощения пространства и моделей, используемых для решения некоей последующей задачи (например, построения векторных образов и кластеризации объектов). Основной упор сделан на аналитику панельных данных, однако идеология вполне поддается обобщению на любые направления, где присутствует множество дескриптивных векторов, характеризующих некоторый объект (для сохранения общности он не конкретизируется).
Ключевые слова
нейронные сети, обработка естественного языка, кластеризация, построение векторных представлений, трансформер