УДК 004.493
DOI: 10.36871/ek.up.p.r.2024.12.03.012
Авторы
Аминат Ахмедовна Албакова,
Диана Дэгиевна Маигова,
ФГБОУ ВО «Грозненский государственный нефтяной технический университет имени академика Миллионщикова», г. Грозный, Россия
Аннотация
С каждым годом авторы вредоносных программ создают все более изощренные и хитроумные программы, которые могут нанести вред нашим компьютерам. Традиционные методы, основанные на поиске сигнатур программ, больше не эффективны в решении проблемы обнаружения вредоносных программ. На смену им приходит автоматический анализ файлов, который является более перспективным подходом к обнаружению подозрительных файлов. Для обнаружения таких вредоносных программ все чаще используются методы машинного обучения. Однако для таких решений может потребоваться много вычислительных ресурсов. Поэтому возникает задача создания оптимальной модели машинного обучения с точки зрения скорости обучения и точности обнаружения вредоносных программ. Кроме того, обычно одного метода представления данных недостаточно для обнаружения вредоносных свойств файлов. Таким образом, в данной статье будут описаны два разных метода: один метод основан на двоичной информации файла, другой – на дизассемблированном коде исполняемых файлов.
Цель данной работы – повысить эффективность обнаружения вредоносных программ за счет оптимизации методов извлечения признаков и применения машинного обучения. Основные задачи исследования включают в себя: извлечение признаков из исполняемых файлов, создание нескольких моделей машинного обучения и их сравнение для определения наиболее эффективной. Набор данных, использованный в этом исследовании, был собран из различных онлайн источников и состоит из 12 824 данных, исполняемые файлы в формате .exe, из которых 11 844 являются вредоносными, а 980 – безопасными.
Ключевые слова
обнаружение вторжений, формат PE, извлечение признаков, дизассемблированные инструкции, опорный вектор машина.