[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

The Challenge of Teaching Reasoning to LLMs Without RL or Distillation

Created by
  • Haebom

저자

Wei Du, Branislav Kisacanin, George Armstrong, Shubham Toshniwal, Ivan Moshkov, Alexan Ayrapetyan, Sadegh Mahdavi, Dan Zhao, Shizhe Diao, Dragan Masulovic, Marius Stanean, Advaith Avadhanam, Max Wang, Ashmit Dutta, Shitij Govil, Sri Yanamandara, Mihir Tandon, Sriram Ananthakrishnan, Vedant Rathi, David Zhang, Joonseok Kang, Leon Luo, Titu Andreescu, Boris Ginsburg, Igor Gitman

개요

본 논문은 사고 과정(Chain-of-Thought, CoT) 추적을 생성하여 다양한 복잡한 작업에서 최첨단 성능을 달성하는 추론 가능 언어 모델에 대한 연구입니다. 기존 연구에서는 강력한 모델(예: DeepSeek-R1)로부터 강화 학습이나 지식 증류를 통해 기본 모델이 이러한 추론 추적을 획득할 수 있음을 보였지만, 미세 조정 없이 짧은 CoT 프롬프팅만으로도 추론 성능이 향상됨을 보여주는 연구도 있습니다. 본 연구는 프롬프팅 또는 최소한의 미세 조정만을 사용하여 기본 모델에서 긴 CoT를 유도할 수 있는지 질문합니다. 추론 모델인 QwQ-32B-Preview의 20개의 긴 CoT 예시만을 사용하여 기본 모델인 Qwen2.5-32B를 경량 미세 조정한 결과, 훨씬 큰 모델인 Qwen2.5-Math-72B-Instruct보다 성능이 우수함을 보였습니다. 이는 소수의 고품질 예시가 강력한 추론 능력을 발휘하도록 하는 데 도움이 됨을 시사합니다. 또한, 프롬프트 엔지니어링, 다중 패스 편집 및 구조적 지침을 통해 향상된 비추론 모델 및 인간 주석가의 CoT 데이터 사용을 탐구했지만, 추론 모델 추적의 성능에는 미치지 못했습니다. 이는 전문가 CoT의 특정 잠재적 특성을 복제하기 어려움을 시사합니다. 문제의 난이도, 다양성 및 답변 길이와 같은 추론 데이터의 주요 특성이 추론 증류에 미치는 영향을 분석했습니다. 여전히 과제는 남아 있지만, 소량의 신중하게 기획된 인간 작성 CoT가 기본 모델에서 추론 동작을 활성화할 수 있다는 점에 낙관적입니다. 다양한 단계에서 인간이 작성한 데이터셋을 공개하고, 소규모 추론 감독이 효과적인 이유에 대한 추가 연구를 제안합니다.

시사점, 한계점

시사점:
소수의 고품질 CoT 예시를 사용한 경량 미세 조정을 통해 기본 모델의 추론 능력을 크게 향상시킬 수 있음을 보임.
추론 모델의 CoT 데이터가 비추론 모델 또는 인간 주석가의 데이터보다 훨씬 효과적임을 확인.
문제 난이도, 다양성, 답변 길이 등 데이터 특성이 추론 증류에 영향을 미침.
소규모 인간 작성 CoT 데이터셋을 공개하여 추가 연구를 위한 기반 마련.
한계점:
추론 모델의 CoT 데이터를 모방하는 데 어려움이 있음. 비추론 모델이나 인간 주석가의 데이터는 추론 모델의 성능에 미치지 못함.
고품질 CoT 데이터 생성 및 수집의 어려움.
소규모 데이터셋의 일반화 성능에 대한 추가 연구 필요.
👍