본 논문은 대규모 언어 모델(LLM)의 중간 추론 단계에서 사실적 부정확성이 존재하는 심각한 취약점을 해결하는 새로운 프레임워크를 제시합니다. 올바른 최종 답변에도 불구하고 중간 추론 단계에서의 사실적 오류는 의료, 법률 분석, 과학 연구 등 고위험 분야에서 사용자를 잘못된 결정으로 이끌 수 있는 상당한 위험을 초래합니다. 이 프레임워크는 세 가지 핵심 구성 요소로 통합됩니다. 첫째, 반사실적 증강 데이터로 훈련된 특수 사실 확인 분류기는 추론 체인 내의 미묘한 사실적 불일치를 감지합니다. 둘째, 향상된 GRPO(Group Relative Policy Optimization) 강화 학습 접근 방식은 다차원 보상을 통해 사실성, 일관성 및 구조적 정확성을 균형 있게 조정합니다. 셋째, 추론 과정 중 모델 활성화에서 사실성 개선이 어떻게 나타나는지 조사하는 기계적 해석 가능성 방법을 사용합니다. 다양한 최첨단 모델에 대한 광범위한 평가 결과, Claude-3.7 및 GPT-o1과 같은 주요 모델에서도 추론 사실 정확도가 각각 81.93% 및 82.57%에 불과한 우려스러운 패턴이 드러났습니다. 제시된 접근 방식은 Math-500, AIME-2024, GPQA 등의 어려운 벤치마크에서 성능을 유지하거나 향상시키면서 사실적 견고성을 최대 49.90%까지 향상시킵니다. 또한, 신경 활성화 수준 분석을 통해 사실적 개선이 모델 아키텍처 내에서 추론 경로를 어떻게 재구성하는지에 대한 실행 가능한 통찰력을 제공하여 활성화 유도 최적화를 통해 사실적 견고성을 명시적으로 목표로 하는 미래의 훈련 방법론에 대한 기반을 마련합니다.