본 논문은 정적이고 사전에 주석이 달린 참조 자료에 의존하는 기존의 LLM 평가 방식의 비용, 확장성, 완전성 문제를 해결하기 위해, 도구 지원 LLM 평가 프레임워크인 TALE을 제안합니다. TALE은 사전에 정의된 정답 없이 LLM 출력을 평가하며, 외부 증거를 적극적으로 검색하고 종합하는 도구 접근 기능을 갖춘 에이전트를 사용합니다. 웹 쿼리 생성, 정보 수집, 결과 요약, 후속 검색 개선 등의 반복적인 과정을 통해 정적 참조 자료에서 벗어나 실제 시나리오에서 흔히 볼 수 있는 자유 형식 질문 응답 작업에 맞춰 평가합니다. 여러 자유 형식 QA 벤치마크에 대한 실험 결과, TALE은 응답 정확도 측정에서 기존 참조 기반 지표를 능가할 뿐만 아니라, 인간 평가와 상당한 수준 또는 거의 완벽한 일치율을 달성합니다.