Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Chain of Execution Supervision Promotes General Reasoning in Large Language Models

Created by
  • Haebom

저자

Nuo Chen, Zehua Li, Keqin Bao, Junyang Lin, Dayiheng Liu

개요

본 논문은 대형 언어 모델(LLM)의 견고하고 일반적인 추론 능력 구축을 목표로 하며, 코드의 논리적 구조와 다양한 추론 패러다임을 활용하기 위해 코드 실행을 명시적인 단계별 사고 방식의 근거로 변환하는 260만 개의 샘플로 구성된 대규모 코퍼스인 TracePile을 소개합니다. TracePile은 수학, 고전 알고리즘, 알고리즘 경연 분야를 포괄하며, 변수 추적 질문과 코드 재작성을 통해 논리적 세분성과 코드 다양성을 향상시킵니다. LLaMA 3, LLaMA 3.1, Qwen-2.5, Qwen-2.5 Coder를 포함한 4개의 기본 모델과 20개의 벤치마크를 사용하여 continue-pretraining, instruction tuning, two-stage finetuning의 3가지 훈련 설정을 평가한 결과, 일관된 성능 향상을 보였습니다.

시사점, 한계점

시사점:
코드 실행을 단계별 사고 방식으로 변환하여 LLM의 추론 능력 향상에 기여.
수학, 알고리즘 등 다양한 도메인에서 모델 성능 향상 입증.
다양한 모델 및 훈련 설정에서 일관된 성능 개선 확인.
한계점:
논문에 구체적인 한계점 언급은 없음.
👍