УДК 004.056
DOI: 10.36871/k.i.n.2026.01.01.009

Авторы

Роман Витальевич Булганин,
DevOps / DataOps, Москва, Россия

Аннотация

Статья посвящена осмыслению трансформации парадигмы наблюдаемости в современных распределённых вычислительных средах и сосредоточена на передовых инженерных механизмах существенного сокращения среднего времени выявления инцидентов (MTTD). Цель исследования состоит в систематизации актуальных технологических подходов, включая eBPF-профилирование, применение AIOps на основе методов машинного обучения и практики DataOps, что позволяет теоретически обосновать переход от реактивной модели метрического мониторинга к предиктивным и автономно функционирующим ИТ-инфраструктурам. Методологическая основа работы сформирована на базе систематического анализа современной научной литературы, индексируемой в IEEE и ACM, а также сопоставления глобальных отраслевых докладов ведущих консалтинговых структур. Полученные результаты демонстрируют, что объединение сквозного безагентного профилирования на уровне ядра операционной системы с алгоритмическими средствами машинного обучения обеспечивает снижение MTTD на 73% и формирует технологическую основу для построения отказоустойчивых самовосстанавливающихся конвейеров обработки данных. Итоговые положения подтверждают значимость мультимодальной аналитики первопричин как инструмента снижения когнитивной нагрузки на профильных специалистов. Представленные в статье положения обладают существенной прикладной и стратегической ценностью для Senior DevOps- и DataOps-инженеров, а также для системных архитекторов, разрабатывающих высоконагруженные и надёжные ИТ-решения.

Ключевые слова

наблюдаемость, распределённые системы, время обнаружения инцидентов, MTTD, eBPF, AIOps, DataOps, самовосстанавливающиеся конвейеры, микросервисная архитектура, машинное обучение.

Список литературы

[1] Cybersecurity and Infrastructure Security Agency (CISA). FY 2025 CIO FISMA Metrics [Электронный ресурс]. — Режим доступа: https://www.cisa.gov/sites/default/files/2024–12/ FY25_FISMA_CIO_Metrics_v1.0_FINAL.pdf(дата обращения: 14.10.2025).

[2] Devagiri B. R. DataOps and Automation: Revolutionizing Modern Data Management through Agile Methodologies // World Journal of Advanced Engineering Technology and Sciences. — 2025. — Т. 15. — № 3. — С. 207–211. — DOI: https://doi.org/10.30574/ wjaets.2025.15.3.0912.

[3] Faseeha U., Syed H. J., Samad F., Zehra S., Ahmed H. Observability in Microservices: An In-Depth Exploration of Frameworks, Challenges, and Deployment Paradigms // IEEE Access. — 2025. — Т. 13. — С. 72011–72039. — DOI: https://doi.org/10.1109/ACCESS.2025.3562125.

[4] Forrester Research, Inc. 2025 Breach Benchmarks, By Industry [Электронный ресурс]. — Режим доступа: https://www.forrester.com/report/2025‑breach-benchmarks-byindustry/RES185609 (дата обращения: 21.09.2025).

[5] Gartner Inc. Gartner Forecasts Worldwide IT Spending to Grow 9.3% in 2025 [Электронный ресурс]. — Режим доступа: https://www.gartner.com/en/newsroom/pressreleases/2024–10–23‑gartner-forecasts-worldwide-it-spending-to-grow-nine-point-threepercent-in‑2025 (дата обращения: 24.09.2025).

[6] Grohmann J., Straesser M., Chalbani A., Eismann S., Arian Y., Herbst N., Peretz N., Kounev S. SuanMing: Explainable Prediction of Performance Degradations in Microservice Applications // Proceedings of the 2021 ACM/SPEC International Conference on Performance Engineering. — 2021. — С. 165–176. — DOI: https://doi.org/10.1145/3427921.3450248.

[7] IBM Security. Cost of a Data Breach Report 2024 [Электронный ресурс]. — Режим доступа: https://www.ibm.com/reports/data-breach (дата обращения: 29.09.2025).

[8] Leest J., Gerostathopoulos I., Lago P., Raibulet C. Monitoring and Observability of Machine Learning Systems: Current Practices and Gaps [Электронный ресурс]. — arXiv, 2025. — Режим доступа: https://arxiv.org/abs/2510.24142 (дата обращения: 12.11.2025). — DOI: https://doi.org/10.48550/arXiv.2510.24142.

[9] Mahida A. Enhancing Observability in Distributed Systems-A Comprehensive Review // Journal of Mathematical & Computer Applications. — 2023. — Т. 2. — № 3. — С. 1–4. — DOI: https://doi.org/10.47363/JMCA/2023(2)135.

[10] McKinsey & Company. McKinsey Technology Trends Outlook 2025 [Электронный ресурс]. — Режим доступа: https://www.mckinsey.com/capabilities/tech-and-ai/our-insights/ the-top-trends-in-tech (дата обращения: 03.10.2025).

[11] Mishra A. Self-Healing Infrastructure in CI/CD Pipelines: Automating Resilience in CloudNative Applications // Journal of Computer Science and Technology Studies. — 2025. — Т. 7. — № 7. — С. 889–897. — DOI: https://doi.org/10.32996/jcsts.2025.7.7.98.

[12] Mistry H., Mavani C. The Future of Reliability Engineering: Integrating Next-Gen Observability into Cloud-Native Infrastructures // World Journal of Advanced Engineering Technology and Sciences. — 2025. — Т. 16. — № 3. — С. 38–48. — DOI: https://doi.org/10.30574/ wjaets.2025.16.3.1327.

[13] New Relic. 2025 Observability Forecast Report [Электронный ресурс]. — Режим доступа: https://newrelic.com/sites/default/files/2025–09/new-relic‑2025‑observability-forecastreport.pdf (дата обращения: 22.09.2025).

[14] Obuse E., Erigha E. D., Okare B. P., Uzoka A. C., Owoade S., Ayanbode N. Deploying AIAugmented Infrastructure Observability Pipelines for Predictive Fault Detection Using Logs, Metrics, and Traces // Engineering and Technology Journal. — 2025. — Т. 10. — № 8. — С. 6565–6585. — DOI: https://doi.org/10.47191/etj/v10i08.46.

[15] Palo Alto Networks. 2025 Unit 42 Incident Response Report [Электронный ресурс]. — Режим доступа: https://www.paloaltonetworks.com/resources/research/unit‑42‑incidentresponse-report‑2025 (дата обращения: 27.10.2025).

[16] Patel H. R. Self-Healing Observability Pipelines: Autonomous Recovery for Distributed Systems // Journal of Computational Analysis and Applications. — 2025. — Т. 34. — № 10. — С. 374–386. — DOI: https://doi.org/10.48047/jocaaa.2025.34.10.24.

[17] Pentyala D. The Rise of DataOps Observability: AI-Driven Reliability for Modern Data Platforms // Journal of Computer Science and Technology Studies. — 2025. — Т. 7. — № 12. — С. 541–546. — DOI: https://doi.org/10.32996/jcsts.2025.7.12.60.

[18] Splunk. State of Observability 2024 [Электронный ресурс]. — Режим доступа: https:// www.splunk.com/en_us/form/state-of-observability‑2024.html (дата обращения: 18.09.2025).

[19] Thota P. K. Demystifying Self-Healing Cloud Architectures: Building Resilient Systems for Modern Applications // World Journal of Advanced Engineering Technology and Sciences. — 2025. — Т. 15. — № 1. — С. 2211–2218. — DOI: https://doi.org/10.30574/ wjaets.2025.15.1.0426.

[20] Yu G., Chen P., Li Y., Chen H., Li X., Zheng Z. Nezha: Interpretable Fine-Grained Root Causes Analysis for Microservices on Multi-modal Observability Data // Proceedings of the 31st ACM Joint European Software Engineering Conference and Symposium on the Foundations of Software Engineering (ESEC/FSE ’23). — 2023. — С. 553–565. — DOI: https://doi. org/10.1145/3611643.3616249.