본 논문은 대규모 언어 모델(LLM)의 설명 과정에 대한 이해를 높이기 위해, 최선의 설명 추론(IBE)에 기반한 새로운 평가 프레임워크인 IBE-Eval을 제안합니다. IBE-Eval은 일관성, 간결성, 일관성 및 불확실성과 같은 명시적인 논리적 및 언어적 특징을 결합하여 자연어 설명의 타당성을 평가합니다. 실험은 GPT 3.5와 Llama 2가 생성한 여러 인과 관계 질문 답변(CQA)에 대한 설명 중 가장 타당한 설명을 IBE-Eval이 선택하는 방식으로 진행되었습니다. 실험 결과, IBE-Eval은 최대 77%의 정확도(무작위보다 약 27% 향상)로 최적의 설명을 식별하고, GPT 3.5를 기준으로 삼았을 때 17%의 성능 향상을 보였습니다. 또한, IBE-Eval은 본질적으로 효율적이고 해석 가능하며, LLM이 생성한 설명이 IBE 기준에 부합하는 경향이 있고, 인간의 판단과 상당한 상관관계가 있음을 보여줍니다. 이는 자동화된 설명 검증 도구의 미래 개발에 대한 가능성을 제시합니다.