УДК 004.932
DOI: 10.36871/26189976.2026.04-4.008
Авторы
Светлана Мунавировна Куценко,
Казанский государственный энергетический университет, Казань, Россия
Елена Андреевна Салтанаева,
Казанский государственный энергетический университет, Казань, Россия
Наиля Рашидовна Шевко,
Казанский национальный исследовательский технологический университет, Казань, Россия
Аннотация
Статья посвящена анализу алгоритмов распознавания текста с изображений (OCR). Подчеркивается, что успешное решение задачи распознавания текста требует учета множества дестабилизирующих факторов: вариативности шрифтов, низкого разрешения исходных изображений, наличия шумов, геометрических искажений (наклона строк) и неравномерности освещения. Рассмотрен препроцессинг, который обоснованно назван фундаментом надежности системы. Подробно рассматриваются методы повышения качества. Рассмотрены сегментация текста и методы анализа структуры документа. Особое внимание уделено технологиям распознавания на основе машинного обучения и нейронных сетей, включая использование библиотеки Tesseract, что важно для каждого этапа с точки зрения обеспечения высокой точности результатов. Отмечается широкая практическая применимость данных технологий в областях автоматизации документооборота, анализа данных и других сферах. Делается вывод о необходимости комплексного подхода и использования современных инструментов глубокого обучения для эффективного извлечения текстовой информации.
Ключевые слова
оптическое распознавание
символов (OCR)
компьютерное зрение
препроцессинг изображений
сегментация текста
Tesseract
глубокое обучение
сверточные нейронные сети (CNN)
Список литературы
[1] Власов В. А., Куценко С. М. Методы искусственного интеллекта в задачах распознавания текста с кассовых чеков // Информационные технологии в строительных, социальных и экономических системах. 2025. № 1(35). С. 101-104.
[2] Горшков И. Ф., Костыренко А. О., Круглов А. М. Препроцессинг графических изображений на основе искусственного интеллекта // Духовная ситуация времени. Россия XXI век. 2024. № 3(36). С. 1-4.
[3] Дыдалин Г. Д., Хамидуллин А. И., Зарипова Р. С. Интеллектуальная система распознавания иероглифов как инструмент для изучения языков // Казанская наука. 2025. № 3. С. 283-285.
[4] Заливин А. Н., Балабанова Т. Н., Прохоренко Е. И., Васильева Н. В. Сегментация сканированного рукописного текста на словные фрагменты // Экономика. Информатика. 2021. Т. 48, № 2. С. 383-391. DOI 10.52575/2687-0932-2021-48-2-383-391.
[5] Захаренков А. А., Саркисов А. И., Ступников А. А. Сравнение методов распознавания текста в PDF-документах // Математическое и информационное моделирование: материалы Всероссийской конференции молодых ученых, Тюмень, 22–30 апреля 2025 года. Тюмень: ТюмГУ-Press, 2025. С. 122-125.
[6] Кравец М. Б., Утляков А. А. Сравнительный анализ OCR-систем с открытым исходным кодом для решения задач распознавания текста // Научно-техническое и экономическое сотрудничество стран АТР в XXI веке. 2025. Т. 2. С. 52-56.
[7] Нестеров А. С. Анализ рынка современных информационных систем оптического распознавания символов (OCR) // Вопросы науки и образования,2020. № 23(107). С. 24-30.
[8] Паневин Н. Б. Понятие системы препроцессинга и этапы ее проектирования // Вестник науки и образования. 2024. № 7-2(150). С. 14-16.
[9] Салтанаева Е. А., Куценко С. М. Построение систем распознавания образов на основе искусственного интеллекта // Научно-технический вестник Поволжья. 2023. № 12. С. 376-378.
[10] Салтанаева Е. А., Куценко С. М., Лазарев А. С. Применение технологии оптического распознавания образов для поиска и анализа информации о лекарственных средствах // Экономика. Информатика. 2024. Т. 51, № 4. С. 907-918. DOI 10.52575/2687-0932- 2024-51-4-907-918.
[11] Черноусов В.О. Использование нейросетевых моделей и технологии OCR для автоматизированной обработки и анализа PDF-документов // Нанотехнологии: наука и производство. 2025. № 5.С. 69-75.

