본 논문은 대규모 언어 모델(LLM)의 추론 일관성을 평가하고 최적화하기 위한 프레임워크를 제시한다. 새로운 지표인 정렬 점수(Alignment Score)를 사용하여 모델이 생성한 추론 체인과 사람이 작성한 참조 체인 간의 의미적 정렬을 정량화한다. 경험적으로, 2-hop 추론 체인이 가장 높은 정렬 점수를 달성함을 발견했다. 이러한 현상을 설명하기 위해, 논리적 단절, 주제 전환, 중복 추론 및 인과 관계 역전의 네 가지 주요 오류 유형을 정의하고, 각 오류가 정렬 점수 저하에 어떻게 기여하는지 보여준다. 또한, Semantic Consistency Optimization Sampling (SCOS)를 제안하여 정렬 오류가 최소화된 체인을 샘플링하고 선호함으로써 3-hop 작업과 같이 더 긴 추론 체인에서 평균 29.84%의 정렬 점수 향상을 달성했다.