УДК 004.942
DOI: 10.36871/2618-­9976.2026.05.010

Авторы

Вера Владимировна Короткова,
Магистрант, Финансовый университет, Москва, Россия

Аннотация

В  данном  исследовании  рассматривается  задача  распознавания речи по видео, или же чтения по губам, для русского  языка. Основной  целью  работы  является  разработка эффективного комплексного метода обработки данных  для  дальнейшего  обучения  нейросетевых  моделей.  Для  решения  проблемы  дефицита  наборов  данных  предлагается  автоматизированный  пайплайн  сбора  и  подготовки  видеофрагментов на основе моделей Whisper и Mediapipe. В  ходе  исследования на  собранном  корпусе  было  протестировано  несколько  архитектур.  Результаты  показали, что  при  ограниченном  объеме  обучающей  выборки  наилучшую  точность  демонстрирует  базовая,  наименее  ресурсоемкая модель.

Ключевые слова

чтение по губам
распознавание речи по видео
ключевые точки Mediapipe
Whisper
автоматизированный пайплайн

Список литературы

[1] Afouras T. et al. LRS3­TED: A Large­Scale Dataset for Visual Speech Recognition. arXiv preprint arXiv, 2018, arXiv:1809.00496.

[2] Assael Y.M. et al. LipNet: End­to­End Sentence­Level Lipreading. arXiv preprint arXiv, 2016, arXiv:1611.01599.

[3] Bengio Y. et al. Curriculum Learning. Proceedings of the 26th Annual International Conference on Machine Learning, 2009, pp. 41–48.

[4] Graves A. et al. Connectionist Temporal Classification: Labelling Unsegmented Sequence Data with Recurrent Neural Networks. Proceedings of the 23rd International Conference on Machine Learning, 2006, pp. 369–376.

[5] Gulati A. et al. Conformer: Convolution­Augmented Transformer for Speech Recognition. arXiv preprint arXiv, 2020, arXiv:2005.08100.

[6] Liu Z. et al. Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows. Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), 2021, pp. 10012–10022.

[7] Lugaresi C. et al. MediaPipe: A Framework for Building Perception Pipelines. arXiv preprint arXiv, 2019, arXiv:1906.08172.

[8] Ma P. et al. Auto­AVSR: Audio­Visual Speech Recognition with Automatic Labels. ICASSP 2023–2023 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2023, pp. 1–5.

[9] Radford A. et al. Robust Speech Recognition via Large­Scale Weak Supervision. OpenAI Blog, 2022. URL: (дата обращения: 20.01.2026).

[10] Vaswani A. et al. Attention Is All You Need. Advances in Neural Information Processing Systems, 2017, pp. 5998–6008.