УДК 004.85
DOI: 10.36871/2618-9976.2025.02.003
Авторы
Андрей Николаевич Лукьянов,
Лаборантисследователь центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Сергей Александрович Ярушев,
Кандидат технических наук, директор центра перспективных исследований в искусственном интеллекте, Российский экономический университет им. Г.В. Плеханова, Москва, Россия
Аннотация
Статья посвящена исследованию предобучения трансформеров на больших объёмах изображений лиц посредством CrossMAE и дообучения на распознавание эмоций (FER). Кратко рассматривается текущее состояние задачи и её решений. Показано, как предобучение визуальных трансформеров с помощью MAE с перекрёстным вниманием в декодере вкупе с оптимизатором Lion, применением flashattention 2.0 и другими элементами позволяет получить хорошую основу для дообучения на FER.
Ключевые слова
распознавание эмоций
Facial Emotion Recognition
FER
визуальные трансформеры
маскированные автокодировщики
MAE
crossattention
свёрточные нейронные сети
CNN
ViT
обучение на ограниченных данных
механизм внимания
глубокое обучение
нейронные сети