From Feedback to Checklists: Grounded Evaluation of AI-Generated Clinical Notes
Created by
Haebom
저자
Karen Zhou, John Giorgi, Pranav Mani, Peng Xu, Davis Liang, Chenhao Tan
개요
본 논문은 AI가 생성한 임상 노트의 품질 평가의 어려움을 해결하기 위해, 실제 사용자 피드백을 구조화된 체크리스트로 체계적으로 추출하는 파이프라인을 제안한다. 이 체크리스트는 해석 가능하고, 인간 피드백에 기반하며, LLM 기반 평가자에 의해 적용될 수 있도록 설계되었다. 21,000건 이상의 임상 기록을 사용한 실험을 통해, 제안된 체크리스트가 기존의 평가 방식보다 우수한 성능을 보임을 입증했다.