УДК 004.912
DOI: 10.36871/2618-­9976.2025.12.009

Авторы

Дмитрий Григорьевич Родионов,
Доктор экономических наук, доцент, Санкт-­Петербургский политехнический университет Петра Великого, Санкт­-Петербург, Россия
Прохор Александрович Поляков,
Специалист НИЛ «Политех Инвест», Санкт­-Петербургский политехнический университет Петра Великого, Санкт­-Петербург, Россия
Полина Александровна Якоб,
Соискатель, Санкт-­Петербургский политехнический университет Петра Великого, Санкт­-Петербург, Россия
Евгений Александрович Конников,
Кандидат экономических наук, доцент, Санкт­-Петербургский политехнический университет Петра Великого, Санкт-­Петербург, Россия

Аннотация

Статья  посвящена  строгой  спецификации  и  эмпирическому сравнению  конфигураций  регрессионных  моделей  в  сценарно­оптимизационном  методе  семантической  обработки  текстов об аварийных инцидентах. В качестве таргета используется  индекс  риска,  полученный  нормированием  и  инверсией агрегированного показателя серьёзности события с фиксированными  весами  компонент  (класс  аварийности, SCRAM,  падение  мощности, «реактор  не  критичен»).  На  стороне  признаков  рассматриваются  три  представления  тематических  координат:  исходное  (Original),  двуплечевое  Left/Right  с  адаптивным  порогом  по  Оцу  и  вариант  Gamma Left/Right  с  порогом  по  смеси  гамма­распределений;  применяется  ортогональная  трансформация Sum/Diff, предварительный скрининг  признаков и  при  необходимости  trimmed­отбор  обучающей подвыборки по CV­критерию. Банк сравниваемых моделей  включает OLS, Ridge, Lasso, ElasticNet, PCA (95%) + Ridge, PLS + Ridge и расширенную ветку Ridge EXT (p­filter + простые  нелинейности/лаги).  Качество  оценивается  многокритериально: goodness­of­fit,  масштабные  и  относительные  ошибки, вероятностные  показатели,  информационные  критерии, CVметрики и  диагностика остатков;  групповые  баллы нормируются и агрегируются в интегральный композит. Апробация на корпусе NRC Event Notifications (27 299 записей, 1993–2025 гг.) показывает  устойчивое  превосходство  конфигураций  «PLS + Ridge на Sum/Diff (L/R)» и «Ridge на Gamma L/R»; классические  регуляризаторы  на  L/R  образуют  второй  эшелон,  тогда  как  Original и PCA95 систематически уступают по переносимости и  масшта бу ошибок. Предложенная спецификация обеспечивает воспроизводимость, интерпретируемость и операбельную интеграцию результатов в процессы EAM/CMMS, закрывая цикл  «данные – модель – решение».

Ключевые слова

промышленная безопасность
инцидент­аналитика
тематическое моделирование
LDA
Left/Right­разметка
смесь гамма­распределений
Sum/Diff
PLS
регуляризованная регрессия
Ridge
Lasso
ElasticNet
PCA
кросс­валидация
композитные метрики
переносимость модели
EAM/CMMS

Список литературы

[1] Бучаев М.А., Голиков Г.И., Конников Е.А. Подходы к определению информационной безопасности промышленного предприятия закрытого типа // Вестник Академии знаний. 2025. № 4(69). С. 101–107.
[2] Заборовская О.В., Гатауллин М.В., Блаженкова Н.М. и др. Инновационные инструменты имитационного моделирования индикаторов состояния внутренней среды предприятий нефтегазовой промышленности // Экономические науки. 2023. № 222. С. 422–436.
[3] Конников Е.А. Система анализа эффекта информационного импульса в цифровой среде // Естественно­гуманитарные исследования. 2024. № 5(55). С. 176–182.
[4] Моттаева А.Б., Смирнова И.А., Конников Е.А. и др. Нечётко­множественный подход к оценке трансрегиональной промышленной когерентности // Мягкие измерения и вычисления. 2024. Т. 76, № 3. С. 35–44. DOI: 10.36871/2618­9976.2024.03.003.
[5] Поляков П.А., Конников Е.А. Стратегия цифровой трансформации экономики в Российской Федерации / Механизм реализации стратегии социально экономического развития государства: Сборник материалов XVI Международной научно­практической конференции, Махачкала, 25–26 сентября 2024 г. Махачкала: Дагестанский государственный технический университет, 2024. С. 358–361.
[6] Старченкова О.Д., Поляков П.А. Сравнительный анализ программно­математических методов сопоставления данных в информационной среде / Молодёжная неделя науки института промышленного менеджмента, экономики и торговли: сборник трудов всероссийской студенческой научно­учебной конференции, Санкт­Петербург, 02–07 декабря 2024 г. СПб.: Санкт­Петербургский политехнический университет Петра Великого, 2025. С. 153–155.
[7] Farkhod A., Abdusalomov A., Makhmudov F. et al. (2021) LDA­Based Topic Modeling Sentiment Analysis Using Topic/Document/Sentence (TDS) Model. Applied Sciences, no. 11(23), pp. 11091. DOI: 10.3390/app112311091.
[8] Gan J., Cheng Q., Wang J. et al. (2021) Selection of the Optimal Number of Topics for LDA Topic Model. Entropy, no. 23, pp. 1328.
[9] Kim M., Kim D. (2022) A Suggestion on the LDA­Based Topic Modeling Technique Based on ElasticSearch for Indexing Academic Research Results. Applied Sciences, no. 12(6), pp. 3118. DOI: 10.3390/app12063118.
[10] Kong F., Ahn S. (2024) Use of Knowledge Graphs for Construction Safety Management: A Systematic Literature Review. Information, no. 15(7), pp. 390. DOI: 10.3390/info15070390.
[11] Liu M., He X., Rong G. et al. (2021) Text Mining of HAZOP Reports Based on Active Learning and Named Entity Recognition. Processes, no. 9(12), pp. 1996.
[12] Nanyonga A., Joiner K., Turhan U. et al. (2025) Natural Language Processing for Aviation Safety: Predicting Injury Levels from Incident Reports in Australia. Modelling, no. 6(2), pp. 40.
[13] Seo H.J., Hong A.J. (2022) Safety Engagement in the Workplace: Text Mining Analysis. Safety, no. 8(2), pp. 24. DOI: 10.3390/safety8020024.
[14] Vicente­Gonzalez L., Frutos­Bernal E., Vicente­Villardon J.L. (2025) Partial Least Squares Regression for Binary Data. Mathematics, no. 13(3), pp. 458. DOI: 10.3390/math13030458.
[15] Yin Z., Shi L., Yuan Y. et al.(2023) A Study on a Knowledge Graph Construction Method of Safety Reports for Process Industries. Processes, no. 11(1), pp. 146. DOI: 10.3390/pr11010146.
[16] Zhou Z., Huang J., Lu Y. et al. (2022) A New Text­Mining–Bayesian Network Approach for Identifying Chemical Safety Risk Factors. Mathematics, no. 10(24), pp. 4815. DOI: 10.3390/math10244815.