Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning Composable Chains-of-Thought

Created by
  • Haebom

저자

Fangcong Yin, Zeyu Leo Liu, Liu Leqi, Xi Ye, Greg Durrett

개요

본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 새로운 접근법을 제시합니다. 기존의 사고 과정(CoT) 데이터를 활용한 학습 방식은 모든 문제에 대해 주석이 달린 데이터를 확보해야 하는 비용 문제가 있습니다. 본 연구는 제한된 CoT 데이터를 활용하여 LLM이 훈련 분포를 넘어 일반화하고, 특히 구성적으로 일반화하여(atomic reasoning skills을 결합하여 새로운 복잡한 문제 해결), 레이블이 없는 구성적인 작업에 대해서도 성능을 향상시키는 방법을 연구합니다. 구성 가능한 CoT(Composable CoT) 형식으로 atomic task의 CoT 데이터를 수정하여 모델을 학습시키고, 다중 작업 학습 또는 모델 병합과 결합하여 제로샷 성능을 향상시킵니다. 더 나아가, 거부 샘플링 미세 조정(RFT)을 사용하여 소량의 구성 데이터로 추가 학습을 진행합니다. 문자열 조작 및 자연어 능력 조합에 대한 실험 결과, Composable CoT를 사용한 학습 방식이 기존의 다중 작업 학습 및 지속적인 미세 조정 기법보다 우수한 성능을 보임을 확인했습니다.

시사점, 한계점

시사점:
제한된 CoT 데이터를 효과적으로 활용하여 LLM의 추론 능력 향상 및 구성적 일반화 달성 가능성을 제시.
Composable CoT 형식을 통한 atomic task 학습 및 다중 작업 학습/모델 병합의 효과적인 조합 전략 제시.
RFT를 활용한 소량 데이터 추가 학습을 통한 성능 향상 가능성 확인.
한계점:
Composable CoT 형식 설계의 일반성 및 다양한 문제 유형에 대한 적용 가능성에 대한 추가 연구 필요.
RFT를 적용하기 위한 최적의 rejection sampling 전략에 대한 추가 연구 필요.
실험은 특정 유형의 문제(문자열 조작, 자연어 능력 조합)에 국한되어 더욱 다양한 문제 유형에 대한 일반화 성능 평가 필요.
👍