Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Thought Manipulation: External Thought Can Be Efficient for Large Reasoning Models

Created by
  • Haebom

저자

Yule Liu, Jingyi Zheng, Zhen Sun, Zifan Peng, Wenhan Dong, Zeyang Sha, Shiwen Cui, Weiqiang Wang, Xinlei He

개요

본 논문은 대규모 추론 모델(LRM)의 과도한 추론 문제(overthinking)를 해결하기 위한 효율적인 파이프라인인 ThoughtMani를 제안합니다. LRM은 여러 작업에서 추론 능력을 향상시키기 위해 테스트 시간 계산을 확장하지만, 불필요한 추론 단계를 생성하여 성능 향상은 제한적이고 계산 비용이 증가하는 과도한 추론 문제를 겪습니다. 기존 연구는 미세 조정을 통해 이 문제를 완화하려 하지만, 추가 데이터, 비정형적인 학습 설정, 안전 정렬 위험, 일반화 성능 저하 등의 문제가 있습니다. ThoughtMani는 소규모 모델이 생성한 외부 CoT(Chain-of-Thought)를 LRM의 사고 토큰($\texttt{}$ and $\texttt{)}$ 사이에 배치하여 모델이 불필요한 중간 단계를 건너뛰도록 조작하는 방식으로, 계산 비용을 상당히 줄이면서 성능은 유지합니다. 실험 결과, LiveBench/Code 데이터셋에서 QwQ-32B에 적용 시 출력 토큰 수를 약 30% 줄이고 안전 정렬을 평균 10% 향상시키는 것으로 나타났습니다. 다양한 크기의 모델을 제공하는 모델 공급업체에게 ThoughtMani는 보다 효율적이고 접근 가능한 LRM을 실제 응용 프로그램에 구축할 수 있는 효과적인 방법을 제공합니다.

시사점, 한계점

시사점:
과도한 추론 문제를 해결하여 LRM의 효율성을 높이는 새로운 방법 제시
미세 조정 없이 계산 비용을 감소시키고 성능을 유지하는 효과적인 파이프라인(ThoughtMani) 제안
안전 정렬 향상을 통한 LRM의 안전성 증대
다양한 크기의 LRM을 실제 응용 프로그램에 효율적으로 적용 가능
한계점:
ThoughtMani의 성능 향상은 특정 데이터셋과 모델에 대한 실험 결과에 기반하며, 다른 데이터셋이나 모델에 대한 일반화 성능은 추가 연구가 필요함.
소규모 모델이 생성하는 CoT의 질에 따라 ThoughtMani의 성능이 영향을 받을 수 있음.
ThoughtMani가 모든 유형의 LRM 과도한 추론 문제에 효과적인지에 대한 추가적인 연구가 필요함.
👍