УДК 004.912
DOI: 10.36871/2618-9976.2025.12.009
Авторы
Дмитрий Григорьевич Родионов,
Доктор экономических наук, доцент, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Россия
Прохор Александрович Поляков,
Специалист НИЛ «Политех Инвест», Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Россия
Полина Александровна Якоб,
Соискатель, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Россия
Евгений Александрович Конников,
Кандидат экономических наук, доцент, Санкт-Петербургский политехнический университет Петра Великого, Санкт-Петербург, Россия
Аннотация
Статья посвящена строгой спецификации и эмпирическому сравнению конфигураций регрессионных моделей в сценарнооптимизационном методе семантической обработки текстов об аварийных инцидентах. В качестве таргета используется индекс риска, полученный нормированием и инверсией агрегированного показателя серьёзности события с фиксированными весами компонент (класс аварийности, SCRAM, падение мощности, «реактор не критичен»). На стороне признаков рассматриваются три представления тематических координат: исходное (Original), двуплечевое Left/Right с адаптивным порогом по Оцу и вариант Gamma Left/Right с порогом по смеси гаммараспределений; применяется ортогональная трансформация Sum/Diff, предварительный скрининг признаков и при необходимости trimmedотбор обучающей подвыборки по CVкритерию. Банк сравниваемых моделей включает OLS, Ridge, Lasso, ElasticNet, PCA (95%) + Ridge, PLS + Ridge и расширенную ветку Ridge EXT (pfilter + простые нелинейности/лаги). Качество оценивается многокритериально: goodnessoffit, масштабные и относительные ошибки, вероятностные показатели, информационные критерии, CVметрики и диагностика остатков; групповые баллы нормируются и агрегируются в интегральный композит. Апробация на корпусе NRC Event Notifications (27 299 записей, 1993–2025 гг.) показывает устойчивое превосходство конфигураций «PLS + Ridge на Sum/Diff (L/R)» и «Ridge на Gamma L/R»; классические регуляризаторы на L/R образуют второй эшелон, тогда как Original и PCA95 систематически уступают по переносимости и масшта бу ошибок. Предложенная спецификация обеспечивает воспроизводимость, интерпретируемость и операбельную интеграцию результатов в процессы EAM/CMMS, закрывая цикл «данные – модель – решение».
Ключевые слова
промышленная безопасность
инцидентаналитика
тематическое моделирование
LDA
Left/Rightразметка
смесь гаммараспределений
Sum/Diff
PLS
регуляризованная регрессия
Ridge
Lasso
ElasticNet
PCA
кроссвалидация
композитные метрики
переносимость модели
EAM/CMMS
Список литературы
[1] Бучаев М.А., Голиков Г.И., Конников Е.А. Подходы к определению информационной безопасности промышленного предприятия закрытого типа // Вестник Академии знаний. 2025. № 4(69). С. 101–107.
[2] Заборовская О.В., Гатауллин М.В., Блаженкова Н.М. и др. Инновационные инструменты имитационного моделирования индикаторов состояния внутренней среды предприятий нефтегазовой промышленности // Экономические науки. 2023. № 222. С. 422–436.
[3] Конников Е.А. Система анализа эффекта информационного импульса в цифровой среде // Естественногуманитарные исследования. 2024. № 5(55). С. 176–182.
[4] Моттаева А.Б., Смирнова И.А., Конников Е.А. и др. Нечёткомножественный подход к оценке трансрегиональной промышленной когерентности // Мягкие измерения и вычисления. 2024. Т. 76, № 3. С. 35–44. DOI: 10.36871/26189976.2024.03.003.
[5] Поляков П.А., Конников Е.А. Стратегия цифровой трансформации экономики в Российской Федерации / Механизм реализации стратегии социально экономического развития государства: Сборник материалов XVI Международной научнопрактической конференции, Махачкала, 25–26 сентября 2024 г. Махачкала: Дагестанский государственный технический университет, 2024. С. 358–361.
[6] Старченкова О.Д., Поляков П.А. Сравнительный анализ программноматематических методов сопоставления данных в информационной среде / Молодёжная неделя науки института промышленного менеджмента, экономики и торговли: сборник трудов всероссийской студенческой научноучебной конференции, СанктПетербург, 02–07 декабря 2024 г. СПб.: СанктПетербургский политехнический университет Петра Великого, 2025. С. 153–155.
[7] Farkhod A., Abdusalomov A., Makhmudov F. et al. (2021) LDABased Topic Modeling Sentiment Analysis Using Topic/Document/Sentence (TDS) Model. Applied Sciences, no. 11(23), pp. 11091. DOI: 10.3390/app112311091.
[8] Gan J., Cheng Q., Wang J. et al. (2021) Selection of the Optimal Number of Topics for LDA Topic Model. Entropy, no. 23, pp. 1328.
[9] Kim M., Kim D. (2022) A Suggestion on the LDABased Topic Modeling Technique Based on ElasticSearch for Indexing Academic Research Results. Applied Sciences, no. 12(6), pp. 3118. DOI: 10.3390/app12063118.
[10] Kong F., Ahn S. (2024) Use of Knowledge Graphs for Construction Safety Management: A Systematic Literature Review. Information, no. 15(7), pp. 390. DOI: 10.3390/info15070390.
[11] Liu M., He X., Rong G. et al. (2021) Text Mining of HAZOP Reports Based on Active Learning and Named Entity Recognition. Processes, no. 9(12), pp. 1996.
[12] Nanyonga A., Joiner K., Turhan U. et al. (2025) Natural Language Processing for Aviation Safety: Predicting Injury Levels from Incident Reports in Australia. Modelling, no. 6(2), pp. 40.
[13] Seo H.J., Hong A.J. (2022) Safety Engagement in the Workplace: Text Mining Analysis. Safety, no. 8(2), pp. 24. DOI: 10.3390/safety8020024.
[14] VicenteGonzalez L., FrutosBernal E., VicenteVillardon J.L. (2025) Partial Least Squares Regression for Binary Data. Mathematics, no. 13(3), pp. 458. DOI: 10.3390/math13030458.
[15] Yin Z., Shi L., Yuan Y. et al.(2023) A Study on a Knowledge Graph Construction Method of Safety Reports for Process Industries. Processes, no. 11(1), pp. 146. DOI: 10.3390/pr11010146.
[16] Zhou Z., Huang J., Lu Y. et al. (2022) A New TextMining–Bayesian Network Approach for Identifying Chemical Safety Risk Factors. Mathematics, no. 10(24), pp. 4815. DOI: 10.3390/math10244815.

