추론 LLM(대규모 언어 모델)이 전제가 누락된(MiP) 불완전한 질문에 대해 강화 학습 또는 지도 학습으로 훈련되었는지 여부에 관계없이 응답 길이가 급격히 증가하여 중복되고 비효율적인 사고로 이어짐을 발견했습니다. 이는 새롭게 제시된 시나리오로 인해 일반적인 과도한 사고 문제가 크게 악화되는데, 이를 MiP-과도한 사고라고 명명했습니다. 이러한 실패는 "테스트 시 확장 법칙"에 위배되지만, MiP로 큐레이션한 여러 데이터 세트에서 광범위하게 관찰되어 저렴한 과도한 사고의 해악과 비판적 사고의 부족을 나타냅니다. 놀랍게도, 추론을 위해 특별히 훈련되지 않은 LLM은 MiP 시나리오에서 훨씬 더 나은 성능을 보이며, 불완전한 질문을 빠르게 식별하는 훨씬 더 짧은 응답을 생성합니다. 이는 추론 LLM에 대한 현재 훈련 방식의 심각한 결함을 시사하며, 효율적인 사고를 충분히 장려하지 않아 사고 패턴의 남용으로 이어집니다. 이러한 실패의 원인을 더 자세히 조사하기 위해 다양한 유형의 LLM에 대한 추론 길이, 과도한 사고 패턴 및 비판적 사고의 위치에 대한 세분화된 분석을 수행했습니다. 또한, 확장된 제거 연구를 통해 과도한 사고가 추론 모델의 응답 증류를 통해 전파됨을 밝혔습니다. 이러한 결과는 과도한 사고에 대한 이해를 향상시키고 문제를 완화하는 데 대한 새로운 통찰력을 제공합니다.