RadAlign: Advancing Radiology Report Generation with Vision-Language Concept Alignment
Created by
Haebom
저자
Difei Gu, Yunhe Gao, Yang Zhou, Mu Zhou, Dimitris Metaxas
개요
RadAlign은 흉부 X선 자동 판독을 위한 새로운 프레임워크로, 시각-언어 모델(VLM)과 대규모 언어 모델(LLM)을 결합하여 질병 분류 및 상세 보고서 생성을 수행합니다. VLM을 사용하여 의학적 개념과 시각적 특징을 정렬하여 여러 질병에 걸쳐 평균 AUC 0.885의 우수한 질병 분류 성능을 달성합니다. 이후, 정렬된 시각-언어 공간에서 텍스트 기반 개념으로 표현된 인식된 의학적 상태를 사용하여 LLM 기반 보고서 생성을 유도합니다. 유사한 과거 사례를 기반으로 출력을 생성하는 검색 증강 생성 메커니즘을 통해 GREEN 점수 0.678을 달성, 기존 최고 성능(0.634)을 능가하는 보고서 품질을 제공합니다. RadAlign은 강력한 임상 해석력을 유지하면서 환각을 줄여 통합 예측 및 생성 AI를 통해 자동화된 의료 영상 및 보고서 분석을 발전시킵니다. 코드는 https://github.com/difeigu/RadAlign 에서 이용 가능합니다.