Clinically Grounded Agent-based Report Evaluation: An Interpretable Metric for Radiology Report Generation
Created by
Haebom
저자
Radhika Dua (Fred), Young Joon (Fred), Kwon, Siddhant Dogra, Daniel Freedman, Diana Ruan, Motaz Nashawaty, Danielle Rigau, Daniel Alexander Alber, Kang Zhang, Kyunghyun Cho, Eric Karl Oermann
개요
본 논문은 방사선 영상 보고서 생성(RRG)의 안전한 배포를 위해 해석 가능한 임상 평가 프레임워크인 ICARE를 제안합니다. ICARE는 대규모 언어 모델 에이전트와 동적 객관식 질문 답변(MCQA)을 활용하여, 정답 보고서와 생성된 보고서를 가진 두 에이전트가 서로 임상적으로 의미 있는 질문을 생성하고 답변을 통해 일치 여부를 평가합니다. 답변 일치도는 임상적 정밀도와 재현율에 대한 해석 가능한 대리 지표로 사용되며, 점수와 질문-답변 쌍을 연결하여 투명하고 해석 가능한 평가를 가능하게 합니다. 임상의 연구 결과, ICARE는 기존 지표보다 전문가 판단과 훨씬 더 잘 일치하며, 교란 분석을 통해 임상적 내용과 재현성에 대한 민감도를 확인하고, 모델 비교를 통해 해석 가능한 오류 패턴을 밝힙니다.