본 논문은 ChatGPT와 Claude와 같은 생성형 AI 시스템의 유용성을 평가하는 새로운 틀을 제시합니다. 기존의 정확도 중심 평가 방식에서 벗어나, 인간의 이해와 의사결정에 중점을 둔 평가를 시도합니다. 구체적으로, 가상 환자의 흉부 CT 스캔과 방사선 보고서를 이해하고 임상적 결정을 내리는 과정에서 생성형 AI 시스템의 유용성을 평가했습니다. 환자와 의료 전문가 간의 대화를 통해 의학 용어 해석, 보고서에 언급된 문제의 영상 확인, 질병 예후 이해, 다음 진단 단계 논의, 치료 옵션 비교 등의 주요 테마를 도출하고, 두 개의 최첨단 생성형 AI 시스템을 방사선 전문의의 응답과 비교 분석했습니다. 그 결과, 다양한 테마에 걸쳐 모델이 생성하는 응답의 질적 차이가 있음을 보였고, 환자 중심의 생성형 AI 시스템은 다양한 대화 주제를 처리하여 환자의 실제 정보 요구를 충족해야 함을 강조했습니다.