대규모 언어 모델(LLM)이 실세계 자율 애플리케이션에 점점 더 많이 통합됨에 따라, 평가를 위해 정적이고 사전 주석이 달린 참조에 의존하는 것은 비용, 확장성 및 완전성 측면에서 상당한 과제를 제기합니다. 본 논문은 사전 결정된 정답 없이 LLM 출력을 평가하기 위한 프레임워크인 도구 증강형 LLM 평가(TALE)를 제안합니다. 고정된 참조와 비교하거나 LLM-as-a-judge 지식에만 의존하는 기존 지표와 달리, TALE은 외부 증거를 적극적으로 검색하고 종합하는 도구 접근 기능을 갖춘 에이전트를 사용합니다. 반복적으로 웹 쿼리를 생성하고, 정보를 수집하고, 결과를 요약하고, 반성을 통해 후속 검색을 개선합니다. 정적 참조에서 벗어남으로써 TALE은 실제 시나리오에서 일반적인 자유 형식 질문 응답 작업과 일치합니다. 여러 자유 형식 QA 벤치마크에 대한 실험 결과는 TALE이 응답 정확도 측정을 위한 표준 참조 기반 지표를 능가할 뿐만 아니라 인간 평가와 상당한 또는 거의 완벽한 일치를 달성함을 보여줍니다. TALE은 정적 참조에 의존하지 않고 실제의 역동적인 시나리오에서 LLM 평가의 신뢰성을 향상시킵니다.