본 논문은 강화 학습을 통해 사고 과정(Chain-of-Thought, CoT) 전략으로 추론 작업 성능을 크게 향상시킨 대규모 언어 모델(LLM)이 여전히 완벽하지 않다는 점을 지적한다. 연구진은 다양한 복잡도의 제약 만족 논리 문제인 그래프 컬러링 문제를 이용하여 o1-mini, o3-mini, DeepSeek-R1, Claude 3.7 Sonnet, Gemini 2.5 Pro Preview, Grok 3 Mini Beta 등 여러 RLLM(Reasoning Large Language Models)을 평가했다. 그 결과, 모든 모델에서 상당수의 오답이 프롬프트에 명시되지 않은 에지를 착각(hallucinate)하는 것에서 기인함을 발견했다. 이러한 현상은 문제 복잡도와 의미 프레임에 관계없이 지속적으로 나타났으며, 일부 모델에서는 오답의 대부분을 차지했다. 연구는 RLLM이 문제의 세부 사항을 잘못 표현하는 더 광범위한 문제를 가지고 있을 가능성을 시사하며, 이러한 약점을 완화하기 위한 설계 방안을 제시한다.