본 논문은 대규모 언어 모델(LLM)의 일관성을 평가하기 위한 새로운 프레임워크인 ConsistencyChecker를 제안합니다. 기존의 자기 일관성 방법론이 자연어의 미묘한 의미 변화나 코드/수식의 기능적 변화를 놓치는 문제를 해결하기 위해, 가역적인 변환 시퀀스를 통한 일관성 측정을 목표로 트리 기반 평가 프레임워크를 설계했습니다. 노드는 서로 다른 텍스트 상태를, 에지는 역 연산 쌍을 나타내며, 동적이고 LLM이 생성한 벤치마크를 사용하여 모델의 일반화 능력을 공정하게 평가하고 벤치마크 유출을 방지합니다. 변환 트리의 다양한 깊이에서의 유사성을 기반으로 일관성을 정량화하며, 다양한 모델에 대한 실험 결과 ConsistencyChecker가 모델 성능을 구분할 수 있음을 보여줍니다. 특히, WMT 2024 자동 순위와 강한 상관관계(r > 0.7)를 보이며 벤치마크 없는 접근 방식의 타당성을 입증합니다. 소스 코드는 깃허브에서 공개됩니다.