Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

You Need Reasoning to Learn Reasoning: The Limitations of Label-Free RL in Weak Base Models

Created by
  • Haebom
Category
Empty

저자

Shuvendu Roy, Hossein Hajimirsadeghi, Mengyao Zhai, Golnoosh Samei

개요

본 논문은 대규모 언어 모델의 비지도 강화 학습(RL) 방법의 추론 능력 향상 가능성을 탐구하지만, 제한된 추론 능력을 가진 소규모 모델에 대한 일반화 가능성이 부족하다는 점을 지적한다. 0.5B에서 7B 파라미터까지 다양한 모델 크기 및 추론 강도를 대상으로 비지도 RL 방법의 성능을 체계적으로 조사한 결과, 모델의 기존 추론 능력에 크게 의존하며, 더 약한 모델에서는 성능이 저하되는 한계를 발견했다. 특히, 소규모 모델은 효과적인 자기 반성을 가능하게 할 만큼 충분히 길거나 다양한 사고 사슬(chain-of-thought) 추론을 생성하지 못하며, 훈련 데이터의 난이도가 성공에 중요한 역할을 한다. 이러한 문제를 해결하기 위해, 본 연구는 훈련 과정에서 더 어려운 문제를 점진적으로 도입하고, 다수결 원칙에 부합하지 않는 롤아웃을 마스킹하는 커리큘럼 학습을 활용하는 간단하면서도 효과적인 비지도 RL 방법을 제안한다. 또한, 난이도가 미리 정의된 샘플을 생성하기 위한 데이터 큐레이션 파이프라인을 도입했다. 제안된 방법은 모든 모델 크기와 추론 능력에서 일관된 개선을 보여주며, 자원 제약적인 모델에서 추론 능력을 부트스트랩 할 수 있는 보다 강력한 비지도 RL의 경로를 제시한다.

시사점, 한계점

시사점:
비지도 RL은 모델의 기존 추론 능력에 크게 의존한다.
소규모 모델의 경우, 충분한 길이와 다양성의 사고 사슬을 생성하는 데 어려움이 있다.
훈련 데이터의 난이도가 성공에 중요한 영향을 미친다.
커리큘럼 학습 및 데이터 큐레이션을 활용한 방법론이 모든 모델 크기에서 일관된 개선을 보인다.
자원 제약적인 모델의 추론 능력 부트스트랩 가능성을 제시한다.
한계점:
비지도 RL 방법의 성능은 기본 모델의 추론 능력에 제한된다.
소규모 모델에 대한 적용 시 성능 저하 가능성이 있다.
효과적인 자기 반성을 위한 충분한 데이터 생성의 어려움이 있다.
👍