УДК 004.85
DOI: 10.36871/2618-­9976.2025.02.003

Авторы

Андрей Николаевич Лукьянов,
Лаборант­исследователь центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия

Аннотация

Статья посвящена исследованию предобучения трансформеров на больших объёмах изображений лиц посредством CrossMAE и дообучения на распознавание эмоций (FER). Кратко рассматривается текущее состояние задачи и её решений. Показано, как предобучение визуальных трансформеров с помощью MAE с перекрёстным вниманием в декодере вкупе с оптимизатором Lion, применением flashattention 2.0 и другими элементами позволяет получить хорошую основу для дообучения на FER.

Ключевые слова

распознавание эмоций
Facial Emotion Recognition
FER
визуальные трансформеры
маскированные автокодировщики
MAE
cross­attention
свёрточные нейронные сети
CNN
ViT
обучение на ограниченных данных
механизм внимания
глубокое обучение
нейронные сети