Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Missing Premise exacerbates Overthinking: Are Reasoning Models losing Critical Thinking Skill?

Created by
  • Haebom

저자

Chenrui Fan, Ming Li, Lichao Sun, Tianyi Zhou

개요

추론 LLM(대규모 언어 모델)이 전제가 누락된(MiP) 불완전한 질문에 대해 강화 학습 또는 지도 학습으로 훈련되었는지 여부에 관계없이 응답 길이가 급격히 증가하여 중복되고 비효율적인 사고로 이어짐을 발견했습니다. 이는 새롭게 제시된 시나리오로 인해 일반적인 과도한 사고 문제가 크게 악화되는데, 이를 MiP-과도한 사고라고 명명했습니다. 이러한 실패는 "테스트 시 확장 법칙"에 위배되지만, MiP로 큐레이션한 여러 데이터 세트에서 광범위하게 관찰되어 저렴한 과도한 사고의 해악과 비판적 사고의 부족을 나타냅니다. 놀랍게도, 추론을 위해 특별히 훈련되지 않은 LLM은 MiP 시나리오에서 훨씬 더 나은 성능을 보이며, 불완전한 질문을 빠르게 식별하는 훨씬 더 짧은 응답을 생성합니다. 이는 추론 LLM에 대한 현재 훈련 방식의 심각한 결함을 시사하며, 효율적인 사고를 충분히 장려하지 않아 사고 패턴의 남용으로 이어집니다. 이러한 실패의 원인을 더 자세히 조사하기 위해 다양한 유형의 LLM에 대한 추론 길이, 과도한 사고 패턴 및 비판적 사고의 위치에 대한 세분화된 분석을 수행했습니다. 또한, 확장된 제거 연구를 통해 과도한 사고가 추론 모델의 응답 증류를 통해 전파됨을 밝혔습니다. 이러한 결과는 과도한 사고에 대한 이해를 향상시키고 문제를 완화하는 데 대한 새로운 통찰력을 제공합니다.

시사점, 한계점

시사점: 전제가 누락된 질문에 대한 추론 LLM의 과도한 사고 문제를 밝히고, 그 원인과 해결 방안에 대한 새로운 통찰력을 제공합니다. 추론 LLM 훈련 방식의 개선 필요성을 제시합니다. 비추론 LLM이 MiP 시나리오에서 더 나은 성능을 보이는 점을 통해 효율적인 사고 능력의 중요성을 강조합니다. 과도한 사고가 모델 증류를 통해 전파될 수 있음을 밝혀, 모델 개발 및 배포 과정에서의 주의를 요구합니다.
한계점: 연구에 사용된 데이터셋의 특징이 결과에 영향을 미칠 수 있습니다. MiP 시나리오 외 다른 유형의 불완전한 질문에 대한 일반화 가능성에 대한 추가 연구가 필요합니다. 과도한 사고 문제를 완화하기 위한 구체적인 훈련 방법론에 대한 제안은 부족합니다.
👍