Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

R1-Code-Interpreter: Training LLMs to Reason with Code via Supervised and Reinforcement Learning

Created by
  • Haebom

저자

Yongchao Chen, Yueying Liu, Junwei Zhou, Yilun Hao, Jingquan Wang, Yang Zhang, Chuchu Fan

개요

본 논문은 대규모 언어 모델(LLM)이 정확한 계산, 기호 조작, 최적화 및 알고리즘 추론을 요구하는 작업에서 어려움을 겪는다는 점을 지적하며, 텍스트 추론과 코드 생성 중 어떤 것을 사용할지 결정하는 것이 중요한 과제임을 강조합니다. 연구진은 텍스트 전용 LLM을 확장하여 여러 번의 코드 쿼리를 자율적으로 생성하는 R1-Code-Interpreter를 제시합니다. 144개의 추론 및 계획 작업(훈련용 107개, 테스트용 37개)을 사용하여 Qwen-2.5 모델(3B/7B/14B)을 다양한 SFT 및 RL 전략을 사용하여 미세 조정했습니다. 다양한 답변 형식, 추론 여부, 콜드/웜 시작, GRPO/PPO, 마스크된/마스크되지 않은 코드 출력 등을 조사했습니다. 다양한 작업으로 인해 코드 인터프리터 훈련이 상당히 어렵다는 것을 발견하였으며, SFT 단계의 중요성을 강조합니다. 최종 모델인 R1-CI-14B는 37개 테스트 작업에서 평균 정확도를 44.0%에서 64.1%로 향상시켜 GPT-4o(텍스트 전용: 58.6%)를 능가하고 GPT-4o with Code Interpreter(70.9%)에 근접했습니다. 데이터셋, 코드 및 모델은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
LLM이 코드 생성을 통해 자체 검증하는 기능을 갖도록 하는 새로운 방법 제시.
다양한 작업에서 코드와 텍스트 추론을 효과적으로 활용하는 방법에 대한 지침 제공.
SFT와 RL을 결합한 효과적인 LLM 미세 조정 전략 제시.
R1-CI-14B 모델이 GPT-4o를 능가하는 성능을 보임.
다양한 크기의 Qwen-2.5 모델에 대한 실험 결과 제시.
한계점:
코드 인터프리터 훈련의 어려움과 높은 비용.
GPT-4o with Code Interpreter에 비해 여전히 성능 차이 존재.
특정 모델(Qwen-2.5)과 데이터셋에 대한 결과이므로 일반화 가능성에 대한 추가 연구 필요.
다양한 유형의 코드와 복잡한 추론 작업에 대한 추가적인 평가 필요.
👍