A Model Can Help Itself: Reward-Free Self-Training for LLM Reasoning

작성자

Haebom

카테고리

Empty

저자

Mengqi Li, Lei Zhao, Anthony Man-Cho So, Ruoyu Sun, Xiao Li

💡 개요

본 논문은 외부 보상 없이 언어 모델이 스스로 생성한 응답을 이용해 추론 성능을 향상시키는 **SePT(Self-evolving Post-Training)**라는 새로운 후학습 방법을 제안합니다. SePT는 모델이 질문을 샘플링하고, 특정 온도 설정 하에 스스로 응답을 생성하며, 이렇게 생성된 데이터를 사용하여 모델을 재훈련하는 과정을 반복합니다. 이 반복적인 자기 훈련 과정에서 온라인 데이터 갱신 메커니즘을 사용하여 가장 최근에 업데이트된 모델로 새로운 데이터를 생성함으로써 지속적인 개선을 이끌어냅니다.

🔑 시사점 및 한계

•

외부 보상 없이도 LLM 추론 성능 향상 가능성 입증: 별도의 외부 데이터나 전문가 보상 없이도 모델 자체의 생성 데이터를 활용하여 추론 능력을 효과적으로 개선할 수 있음을 보여줍니다.

•

간단하지만 효과적인 자기 훈련 프레임워크 제시: SePT는 구현이 간단하면서도 수학적 추론 벤치마크에서 강력한 성능 향상을 달성하여 실용적인 자기 감독 학습 방안을 제시합니다.

•

온라인 데이터 갱신 및 온도 조절의 중요성 강조: 자기 훈련 과정에서 생성되는 데이터의 신선도와 샘플링 온도의 동적 변화가 성능 향상에 핵심적인 역할을 한다는 점을 실험적으로 입증했습니다.

•

생성된 데이터의 품질 관리 및 편향성 문제: 모델이 스스로 생성한 데이터는 내재된 편향이나 오류를 포함할 수 있으며, 이러한 데이터의 품질을 어떻게 효과적으로 관리하고 오류를 최소화할 것인지에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage