УДК 616073.75
DOI: 10.36871/2618-9976.2025.09.004
Авторы
Евгений Юрьевич Щетинин,
Севастопольский государственный университет, Севастополь, Россия
Аннотация
В статье предложены и исследованы модели генерации радиологических отчётов на основе мультимодального анализа рентгеновских снимков и текстовых описаний к ним с использованием больших визуальноязыковых моделей. Их архитектуру составляют нейросетевые модели кодировщика изображений, кодировщика входного текста, а также генератора текста радиологического отчёта. В настоящей работе исследованы различные модели трансформеров в качестве кодировщиков рентгеновских снимков – ViT, DeiT, а кроме того, большие языковые модели – GPT2, Llama27b в качестве генераторов радиологических заключений на основе анализа рентгеновских снимков грудной клетки. На наборе рентгеновских изображений IUCXR проведены компьютерные эксперименты по применению различных моделей генерации радиологических отчётов с помощью предложенных моделей. Качество сгенерированных отчётов оценивалось с помощью метрик семантического сходства текстов BLEU2, ROUGE123, RougeL. Сравнительный анализ результатов исследования показал, что модель генерации радиологических отчётов DeiTLlama27b достигла наилучших значений по сравнению с остальными рассмотренными моделями: BLEU2 = 0,362, ROUGE1 = 0,268, ROUGE2 = 0,23, ROUGE3 = 0,189, ROUGEL = 0,378.
Ключевые слова
рентгеновские снимки
радиологические отчёты
визуальные трансформеры
большие языковые модели
квантизация
метрики семантического сходства текстов

