본 논문은 의료 분야에서 대규모 언어 모델(LLM)의 급속한 도입과 함께 그 감독에 대한 필요성을 강조합니다. 기존의 태스크 기반 모니터링 방식이 LLM의 특성과 맞지 않음을 지적하고, LLM의 일반적인 능력(예: 요약, 추론, 번역)을 중심으로 하는 확장 가능한 "역량 기반 모니터링" 접근 방식을 제안합니다. 이 방식은 개별 태스크의 성능 저하가 아닌, 공통적인 모델 능력의 약점을 파악하여 안전하고 적응 가능한 LLM 모니터링을 가능하게 합니다.