УДК 616­073.75
DOI: 10.36871/2618­-9976.2025.09.004

Авторы

Евгений Юрьевич Щетинин,
Севастопольский государственный университет, Севастополь, Россия

Аннотация

В статье предложены и исследованы модели генерации радиологических отчётов на основе мультимодального анализа рентгеновских снимков и текстовых описаний к ним с использованием больших визуально­языковых моделей. Их архитектуру составляют нейросетевые модели кодировщика изображений, кодировщика входного текста, а также генератора текста радиологического отчёта. В настоящей работе исследованы различные модели трансформеров в качестве кодировщиков рентгеновских снимков – ViT, DeiT, а кроме того, большие языковые модели – GPT­2, Llama2­7b в качестве генераторов радиологических заключений на основе анализа рентгеновских снимков грудной клетки. На наборе рентгеновских изображений IU­CXR проведены компьютерные эксперименты по применению различных моделей генерации радиологических отчётов с помощью предложенных моделей. Качество сгенерированных отчётов оценивалось с помощью метрик семантического сходства текстов BLEU­2, ROUGE­1­2­3, Rouge­L. Сравнительный анализ результатов исследования показал, что модель генерации радиологических отчётов DeiT­Llama2­7b достигла наилучших значений по сравнению с остальными рассмотренными моделями: BLEU­2 = 0,362, ROUGE­1 = 0,268, ROUGE­2 = 0,23, ROUGE­3 = 0,189, ROUGE­L = 0,378.

Ключевые слова

рентгеновские снимки
радиологические отчёты
визуальные трансформеры
большие языковые модели
квантизация
метрики семантического сходства текстов