УДК 004.8:330
DOI: 10.36871/26189976.2026.03-4.010
Авторы
Фук Хау Нгуен,
Кандидат технических наук, Университет электроэнергетики, факультет информационных технологий, Ханой, Вьетнам
Рифат Рашатович Шарипов,
Кандидат технических наук, доцент, Казанский национальный исследовательский технический университет имени А.Н. Туполева-КАИ, Казань, Россия
Аннотация
В условиях быстрого роста объемов больших данных в реальном времени обнаружение аномалий в потоках данных стало критически важной задачей в таких приложениях, как мониторинг сети и системы IoT. В данной статье предлагается структура обработки потоков данных в реальном времени на основе фреймворка Apache Spark, интегрированного с моделями глубокого обучения, для повышения эффективности обнаружения аномалий. Система использует Apache Kafka для приема данных, Spark Streaming – для обработки, а также модели LSTM, CNN и Transformer для анализа. Экспериментальные результаты на наборах данных NSL-KDD и IoT показывают, что интеграционная модель достигает наивысшей точности в 97,1%, превосходя другие модели. Предложенный подход оказывается эффективным для обработки больших объемов данных с низкой задержкой и высокой масштабируемостью.
Ключевые слова
обработка потоков данных
Apache Spark
глубокое обучение
обнаружение аномалий
большие данные
LSTM
Список литературы
[1] Zaharia M., Das T., Li H., Shenker S., Stoica I. 2013. Discretized streams: Fault-tolerant streaming computation at scale. In: Proc. 24th ACM Symp. Operating Systems Principles (SOSP), Farmington, PA, USA, pp. 423–438. DOI: 10.1145/2517349.25227.
[2] Kreps J., Narkhede N., Rao J. 2011. Kafka: A distributed messaging system for log processing. In: Proceedings of the NetDB, vol. 11, pp. 1–7.
[3] Hochreiter S., Schmidhuber J. 1997. Long short-term memory. Neural Computation, vol. 9, no. 8, pp. 1735–1780. DOI: 10.1162/neco.1997.9.8.1735.
[4] Heaton J. 2018. Ian Goodfellow, Yoshua Bengio, Aaron Courville. Deep learning. Genetic Programming and Evolvable Machines, vol. 19, no. 1, pp. 305–307. DOI: 10.1007/s10710- 017-9314-z.
[5] Chandola V., Banerjee A., Kumar V. 2009. Anomaly detection: A survey. ACM Computing Surveys, vol. 41, no. 3, p. 15. DOI: 10.1145/1541880.1541882.
[6] Ahmed M., Mahmood A.N., Hu J. 2016. A survey of network anomaly detection techniques. Journal of Network and Computer Applications, vol. 60, pp. 19–31. DOI: 10.1016/j. jnca.2015.11.016.
[7] Dean J., Ghemawat S. 2008. MapReduce: Simplified data processing on large clusters. Communications of the ACM, vol. 51, no. 1, pp. 107–113. DOI: 10.1145/1327452.1327492.
[8] Karau H., Konwinski A., Wendell P., Zaharia M. 2015. Learning Spark: Lightning-Fast Big Data Analysis. Sebastopol, CA, USA: O’Reilly Media, 258 p. Available at: https://dl.acm.org/ doi/10.5555/2717070
[9] Wu X., Zhu X., Wu G.-Q., Ding W. 2014. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering, vol. 26, no. 1, pp. 97–107. DOI: 10.1109/TKDE.2013.109.
[10] Zhang H., Jia X., Chen Ch. 2025. Deep Learning-Based Real-Time Data Quality Assessment and Anomaly Detection for Large-Scale Distributed Data Streams. International Journal of Medical and All Body Health Research, vol. 6, no. 1, pp. 1–11. DOI: 10.54660/ijmbhr.2025.6.1.01-11.
[11] Laptev N., Amizadeh S., Flint I. 2015. Generic and scalable framework for automated time-series anomaly detection. In: Proc. 21th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD), Sydney, Australia, pp. 1939–1947. DOI: 10.1145/2783258.2788611.
[12] Hundman K., Constantinou V., Laporte C., Colwell I., Soderstrom T. 2018. Detecting spacecraft anomalies using LSTMs and nonparametric dynamic thresholding. In: Proc. 24th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining (KDD), London, UK, pp. 387–395. DOI: 10.1145/3219819.3219845.
[13] Alsoufi M.A., Md. Siraj M., Ghaleb F.A. et al. 2024. Anomaly-Based Intrusion Detection Model Using Deep Learning for IoT Networks. CMES — Computer Modeling in Engineering and Sciences, vol. 141, no. 1, pp. 823–845. DOI: 10.32604/cmes.2024.052112.
[14] Shone N., Ngoc T.N., Phai V.D., Shi Q. 2018. A deep learning approach to network intrusion detection. IEEE Transactions on Emerging Topics in Computational Intelligence, vol. 2, no. 1, pp. 41–50. DOI: 10.1109/TETCI.2017.2772792.
[15] Erfani S.M., Rajasegarar S., Karunasekera S., Leckie C. 2016. High-dimensional and large-scale anomaly detection using a linear one-class SVM with deep learning. Pattern Recognition, vol. 58, pp. 121–134. DOI: 10.1016/j.patcog.2016.03.028.
[16] Zaripova R., Kosulin V., Shkinderov M., Rakhmatullin I. 2023. Unlocking the potential of artificial intelligence for big data analytics. In: E3S Web of Conferences, St. Petersburg, vol. 460, p. 04011. DOI: 10.1051/e3sconf/202346004011.
[17] Katasev A.S., Kataseva D.V. 2017. Neural network diagnosis of anomalous network activity in telecommunication systems. In: 2016 Dynamics of Systems, Mechanisms and Machines, Dynamics 2016, Omsk. Institute of Electrical and Electronics Engineers Inc., p. 7819020. DOI: 10.1109/Dynamics.2016.7819020.
[18] Nuriev M., Kalyashina A., Smirnov Yu. et al. 2024. The 5G revolution transforming connectivity and powering innovations. In: E3S Web of Conferences, vol. 515, p. 04008. DOI: 10.1051/e3sconf/202451504008.
[19] Akavova A., Beguyev S., Zaripova R. 2023. How AI and machine learning can drive sustainable development. In: E3S Web of Conferences, St. Petersburg, vol. 460, p. 04018. DOI: 10.1051/ e3sconf/202346004018.
[20] Katasev A.S., Kataseva D.V., Emaletdinova L.Y. 2018. Neural network model for information security incident forecasting. In: Proceedings — 2018 International Conference on Industrial Engineering, Applications and Manufacturing, ICIEAM 2018, Moscow, p. 8728734. DOI: 10.1109/ICIEAM.2018.8728734.
[21] Yoqubjonov Ja., Gibadullin R., Nuriev M. 2023. Advanced robotic process automation for enterprise efficiency. In: E3S Web of Conferences: XI International Scientific and Practical Conference Innovative Technologies in Environmental Science and Education (ITSE-2023), Divnomorskoe village, Russia, p. 07011. DOI: 10.1051/e3sconf/202343107011.
[22] Kalabanov S., Shagiev R., Ishmuratov R. 2018. Automated Data Acquisition System from Industrial Machines. In: Proceedings of 2018 IEEE East-West Design and Test Symposium, EWDTS 2018, Kazan, p. 8524689. DOI: 10.1109/EWDTS.2018.8524689.

