본 논문은 미국 영어 전자 건강 기록을 기반으로 자동화된 임상 코딩 연구의 평가 방법이 실제 임상 환경과 일치하지 않음을 분석하여 제시한다. 특히 상위 50개의 가장 흔한 코드에만 집중하는 평가는 실제로 수천 개의 코드가 사용되는 것을 고려하지 않은 과도한 단순화라고 주장한다. 따라서, AI 기반 임상 코딩 연구를 실제 임상 코딩의 어려움에 더욱 부합하도록 평가 방법 개선을 위한 8가지 구체적인 권고안을 제시하고, 자동화된 코딩을 넘어 임상 코더의 업무 흐름을 지원하는 대안적인 AI 기반 방법들을 제안한다.