Mid-Training with Self-Generated Data Improves Reinforcement Learning in Language Models

작성자

Haebom

카테고리

Empty

저자

Aswin RRV, Jacob Dineen, Divij Handa, Mihir Parmar, Ben Zhou, Swaroop Mishra, Chitta Baral

💡 개요

이 연구는 대규모 언어 모델(LLM)의 강화학습(RL) 효과를 높이기 위해 학습 중간 단계에서 다양한 자체 생성 데이터를 활용하는 방법을 제안합니다. 조지 폴리아의 문제 해결 접근법을 기반으로 다양한 정답 변형을 생성하고, 이를 이용한 미세 조정(fine-tuning) 후 RL 학습을 진행하여 성능 향상을 목표로 합니다. 자체 생성 데이터를 통한 중간 학습이 RL에서의 다중 접근 방식 결합을 장려하여 수학적 추론, 코드 생성, 서사적 추론 등 다양한 과제에서 일관된 성능 향상을 달성했음을 보여줍니다.

🔑 시사점 및 한계

•

LLM 학습 과정 중 다양한 자체 생성 데이터를 활용한 중간 학습이 후속 강화학습 성능을 향상시킬 수 있습니다.

•

문제 해결에 대한 다양한 접근 방식을 학습한 모델은 복잡한 추론 과제에서 더 나은 성능을 보입니다.

•

제안된 방법론의 효과를 더 넓은 범위의 LLM 아키텍처와 다양한 유형의 추론 작업으로 확장하고, 데이터 생성 과정의 효율성을 최적화하는 연구가 필요합니다.

PDF 보기

Made with Slashpage