УДК 004.89
DOI: 10.36871/2618-9976.2025.08.004
Авторы
Татьяна Владимировна Ким,
Бакалавр, Федеральное государственное бюджетное образовательное учреждение высшего образования «Университет «Дубна»
Ирина Александровна Булякова,
Старший преподаватель, Институт системного анализа и управления, Федеральное государственное бюджетное образовательное учреждение высшего образования «Университет «Дубна»
Юрий Владиславович Трофимов,
Аспирант, ассистент кафедры; Федеральное государственное бюджетное образовательное учреждение высшего образования «Университет «Дубна»
Алексей Николаевич Аверкин,
Кандидат физикоматематических наук, доцент, ведущий научный сотрудник центра перспективных исследований в искусственном интеллекте, Российский экономический университет имени Г.В. Плеханова
Аннотация
Статья посвящена генерации синтетических данных для обучения модели предсказания степени выживаемости раковых клеток под воздействием радиации и гипертермии. Были исследованы современные методы генерации синтетических данных, включая вариационные автоэнкодеры и семантические правила, основанные на научных исследованиях. Проанализированы преимущества и недостатки различных подходов, а также их применимость в условиях малого объема исходных данных.
Результатом работы является создание реалистичного синтетического датасета, сохранение ключевых закономерностей исходных данных, а также разработка и сравнение моделей градиентного бустинга и нейронной сети для прогнозирования выживаемости клеток. Метод SHAP использован для интерпретации вклада каждого параметра, что подтвердило соответствие модели известным медицинским закономерностям.
Ключевые слова
синтетические данные
машинное обучение
вариационные автоэнкодеры
генеративные состязательные сети
нейронные сети
онкология