본 논문은 Chain-of-Thought (CoT) 추론의 실패 원인을 이해하기 위해, 모델의 추론 과정을 나타내는 계산 그래프의 구조적 특징을 분석하는 White-box 방법인 Circuit-based Reasoning Verification (CRV)를 소개합니다. CRV는 올바른 CoT 단계의 계산 그래프가 잘못된 단계의 그래프와 구별되는 고유한 구조적 특징을 가진다는 가설을 바탕으로, 그래프의 구조적 특징을 학습하여 추론 오류를 예측하는 분류기를 개발합니다.
시사점, 한계점
•
시사점:
◦
CRV는 추론 오류를 예측하는 데 있어 높은 예측 정확도를 보이며, 계산 그래프를 직접 검증하는 방식의 가능성을 제시합니다.
◦
오류의 구조적 특징이 도메인별로 다르다는 것을 밝혀, 다양한 추론 작업에서 발생하는 오류가 서로 다른 계산 패턴으로 나타남을 보여줍니다.
◦
구조적 특징 분석을 통해 모델의 특정 기능을 대상으로 한 개입을 유도하여, 모델의 오류를 수정하는 데 성공했습니다.
◦
모델의 계산 과정을 면밀히 분석함으로써 오류 감지를 넘어 LLM 추론에 대한 더 깊고 인과적인 이해를 가능하게 합니다.