УДК 338
DOI: 10.36871/ek.up.p.r.2023.10.05.011

Авторы

Полина Александровна Пашинина,
Андрей Викторович Веселов,
Ирина Андреевна Рудская,
Евгений Александрович Конников
Санкт-Петербургский политехнический университет Петра Великого (СПБПУ), Санкт-Петербург, Россия

Аннотация

Исследование представляет собой кластеризацию новостей субъектов Российской Федерации за 2021 год. С использованием токенизации, лемматизации и метода TF-IDF были выявлены ключевые термины и признаки, используемые для построения модели. С помощью метода тематического моделирования LDA были отобраны основные кластеры, характеризующие медийное пространство рассматриваемых субъектов, и выделены ключевые слова и фразы, связанные с каждой из выявленных тем. Построена модель классификации с применением классификатора случайного леса, выделив явные и содержательные кластеры новостей в различных субъектах России. Модель принимает текст новости в качестве входных данных и возвращает предсказанную категорию или тему, к которой эта новость относится. Одиннадцать кластеры были подробно рассмотрены и охарактеризованы входящими в них основными токенами, а также им были присвоены описывающие их названия. Результаты анализа распределения новостных кластеров позволяют сформировать представление о приоритетах и акцентах в общественном дискурсе. Выявлено, что экономическая динамика, рейтинги регионов, природные и туристические аспекты, а также политический спектр и избирательные процессы играют ключевую роль в привлечении внимания общества. Исследование также выявило различия в акцентах новостного пространства между различными регионами России, включая Брянскую область, Липецкую область, Воронежскую область, Кемеровскую область, Ростовскую область, Ленинградскую область, Калужскую область, Псковскую область, Ханты-Мансийский автономный округ и Красноярский край. Также, были рассмотрены основные акценты новостей в перечисленных субъектах ввиду максимального или минимального присутствия в них тех или иных кластеров, а также были приведены факты, обосновывающие данные результаты и объясняющие полученные кластеризацией новостей выводы. Результаты этого анализа могут быть использованы для формирования региональных стратегий развития, выявления сильных и слабых сторон каждого региона, определения приоритетных направлений для инвестиций и развития, а также разработки коммуникационных стратегий для привлечения внимания общества и инвесторов.

Ключевые слова

кластеры, кластеризация, тематическое моделирование, LDA, Случайный лес, анализ новостей