УДК 004.89:004.852
DOI: 10.36871/26189976.2026.01-2.001

Авторы

Федор Юрьевич Копылов,
КАИ Казанский национальный исследовательский технический университет имени А. Н. Туполева, Казань, Россия
Ольга Александровна Пырнова,
КАИ Казанский национальный исследовательский технический университет имени А. Н. Туполева, Казань, Россия

Аннотация

В статье представлено исследование, посвященное разработке и сравнительному анализу нейросетевых моделей для автоматической категоризации текстовых объявлений на платформах электронной коммерции. Актуальность работы обусловлена стремительным ростом объема пользовательского контента, высокой вариативностью языка, включающей сленг, опечатки, неформальные формулировки, а также неэффективностью традиционных правил и шаблонов при решении задачи классификации. Целью исследования является создание эффективного классификатора, способного определять рубрику объявления на основе его семантики. На основе открытого набора данных Avito Duplicate Ads Detection сформирована репрезентативная выборка из более 15 000 уникальных объявлений, распределенных по 7 категориям. В работе проведен сравнительный анализ четырех подходов: градиентного бустинга (XGBoost) с TF-IDF, кастомного трансформера-кодировщика, модели RuBERT с тонкой настройкой и классификации эмбеддингов BGE-M3 через полносвязную сеть. Экспериментально подтверждено, что наилучшую эффективность демонстрирует подход на основе BGE-M3, достигая точности 86% и F1‑меры 85%, что статистически значимо превосходит классические методы машинного обучения. Новизна исследования заключается в комплексной оценке применимости современных мультиязычных эмбеддингов для классификации зашумленных текстов, характерных для пользовательских объявлений. Особое внимание уделяется разработке автономного решения на архитектуре Transformer Encoder, не требующего подключения к внешним API. В работе также систематизированы ключевые ограничения разработанных подходов, включая семантическую близость категорий и недостаточную интерпретируемость моделей. Результаты исследования могут быть использованы при создании систем модерации и рекомендательных сервисов в сфере электронной коммерции, а также в образовательном процессе при подготовке специалистов в области искусственного интеллекта.

Ключевые слова

нейронные сети
классификация текстов
обработка естественного языка
трансформеры
электронная коммерция

Список литературы

[1] Алексеева А. А., Катасёва Д. В. Сверточная нейросетевая модель распознавания рукописных букв английского алфавита// Цифровые системы и модели: теория и практика проектирования, разработки и использования: Материалы международной научно-практической конференции.—Казань: Казанский государственный энергетический университет, 2025.—С. 1198–1202.
[2] Башаров Р. Р., Гареева Г. А. Поиск информации путём эксплуатации технологий искусственного интеллекта // Инновационные технологии, экономика и менеджмент в промышленности: Сборник научных статей по итогам IV международной научной конференции, Волгоград, 22–23 апреля 2021 года. Том Часть 1.—Волгоград: Общество с ограниченной ответственностью «КОНВЕРТ», 2021.—С. 145–146.
[3] Ермоленко Т. В., Самородский И. Е. Анализ эффективности архитектур глубоких нейросетей для классификации изображений товаров // Проблемы искусственного интеллекта. –2022. –№ 1 (24).—С. 54–64.
[4] Иргизова К. В. Автоматическая категоризация текстов методами машинного обучения: теоретический обзор // Вопросы иноязычной филологии в свете современных исследований: сборник научных статей XXXIII Международной научно-практической конференции, Чебоксары, 20–21 октября 2022 года.—Чебоксары: Чувашский государственный педагогический университет им. И. Я. Яковлева, 2022.—С. 206–211.
[5] Катасёв А. С., Катасёва Д. В., Смирнов Ю. Н., Кунафина Л. Н. Сверточная нейросетевая модель сортировки бытовых отходов // Вестник Технологического университета.— 2024.—Т. 27, № 10.—С. 101–105.
[6] Катасёв А. С., Катасёва Д. В., Смирнов Ю. Н., Литинский М. С. Сверточная нейросетевая модель распознавания рукописных математических выражений // Вестник Технологического университета.—2024.—Т. 27, № 6.—С. 123–127.
[7] Мавлиева К. Х. Нейросетевые модели для анализа поведения потребителей в e-commerce // Цифровые системы и модели: теория и практика проектирования, разработки и использования: Материалы международной научно-практической конференции, Казань, 10–11 апреля 2025 года. — Казань: Казанский государственный энергетический университет, 2025.—С. 1589–1591.
[8] Николаева С. Г., Семичевская Н. П., Кошкина Л. Ю. Анализ больших данных в экономике: применение и перспективы // Экономика и управление: проблемы, решения. — 2025.—Т. 11, № 3(156).—С. 188–192.
[9] Серова В. С. Методы машинного обучения для автоматической категоризации текста в условиях глобальной трансформации // Профильное и профессиональное образование в условиях современного поликультурного пространств: Материалы XII Международной научно-практической конференции.—Челябинск: ФГБОУ ВО «Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации», 2025.—С. 159–166.
[10] Халидов А. А., Агаев М. В., Кадыров Ш. С. Использование нейросетей в маркетинге: области применения, преимущества и ограничения // Экономика и управление: проблемы, решения.—2024.—Т. 7, № 12(153).—С. 206–212.
[11] Ширмамедова З. Н., Зарипова Р. С. Организация электронного бизнеса / З. Н. Ширмамедова, Р. С. Зарипова // Наука Красноярья.—2020.—Т. 9, № 3–2.—С. 150–154.—EDN LLHHHE.