본 논문은 Foundation 모델(FM)을 활용하는 애플리케이션에서 발생하는 할루시네이션 문제를 해결하기 위한 평가 방법론을 제시한다. 구체적으로, 특정 작업에 특화된 FM 애플리케이션의 평가를 위해, 자동화와 사용자 정의 인터페이스를 제공하는 FM task-specific evaluator 프로그램을 합성하는 접근 방식을 제안한다. 이는 작업 불가지론적 메타 모델, 효율적인 피드백을 위한 상호 작용 프로토콜, 적절한 평가 세트를 선택하거나 생성하는 평가 합성기를 핵심으로 한다. 본 연구는 차트 데이터 추출 및 문서 질의 응답과 같은 두 가지 FM 작업에 적용되었으며, 93%와 90%의 정확도를 보였다.