본 논문은 의료 진단 분야에서 대규모 언어 모델(LLM)의 평가가 실제 임상 환경과 부합하지 않는다는 문제점을 지적하며, 이를 해결하기 위해 DyReMe라는 새로운 동적 벤치마크를 제안합니다. DyReMe는 기존의 정적인 시험 형식 문제와 달리, 실제 진료와 유사한 상담 형식의 사례를 생성하여 오진 요소를 포함하고, 다양한 표현 방식을 사용하여 실제 질의 방식을 모방합니다. 정확성 외에도 진실성, 유용성, 일관성과 같은 임상적으로 중요한 세 가지 차원을 평가합니다. 실험 결과는 DyReMe가 기존 벤치마크보다 더 현실적이고 어려운 평가를 제공하며, 최첨단 LLM의 성능과 실제 임상 환경 간의 불일치를 드러냄으로써 신뢰할 수 있는 의료 진단을 위한 더 나은 평가 프레임워크의 필요성을 강조합니다.