자동차 내 대화형 시스템의 사실 정확성을 자동으로 벤치마킹하기 위한 LLM 기반 방법론을 제시한다. LLM 기반의 다섯 가지 방법을 제시하며, 앙상블 기법과 다양한 페르소나를 활용하여 합의를 높이고 환각(hallucination)을 최소화한다. 자동차 매뉴얼을 기준으로 차량 정보 질의응답 시스템인 CarExpert를 평가하고, 자동차 내 환경을 위해 특별히 제작된 새로운 데이터셋을 사용하여 전문가 평가와 비교한다. GPT-4와 입출력 프롬프팅 조합이 전문가 평가와 90% 이상의 사실 정확성 일치율을 보이며, 평균 응답 시간 4.5초로 가장 효율적인 접근 방식임을 보여준다. LLM 기반 테스트는 대화형 시스템의 사실 정확성 검증에 효과적인 접근 방식임을 시사한다.