WER is Unaware: Assessing How ASR Errors Distort Clinical Understanding in Patient Facing Dialogue
Created by
Haebom
Category
Empty
저자
Zachary Ellis, Jared Joselowitz, Yash Deo, Yajie He, Anna Kalygina, Aisling Higham, Mana Rahimzadeh, Yan Jia, Ibrahim Habli, Ernest Lim
개요
임상 대화에서 자동 음성 인식(ASR)의 활용이 증가함에 따라, 기존 평가 방식인 단어 오류율(WER)이 실제 임상적 영향과 연관성이 있는지에 대한 의문을 제기합니다. 전문가 임상의 평가를 통해 구축한 골드 표준 벤치마크를 활용하여 WER 및 기타 일반적인 지표들이 임상적 영향과 상관관계가 낮음을 확인했습니다. 이를 해결하기 위해, GEPA를 사용하여 최적화된 LLM 기반의 평가 시스템을 도입하여 전문가 평가를 모방하고, 임상 대화에서의 안전성을 평가할 수 있는 확장 가능한 프레임워크를 제시합니다.
시사점, 한계점
•
시사점:
◦
ASR 시스템의 평가를 텍스트 충실도에서 벗어나 임상적 안전성 평가로 확장하는 프레임워크를 제시했습니다.