SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization

作者

Haebom

カテゴリー

Empty

저자

Xiaole Su, Kasey Zhang, Andy Lyu

💡 개요

본 연구는 자동 형식화(autoformalization) 작업에서 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)의 데이터 중복성이 모델 성능에 미치는 영향을 탐구합니다. SFT와 GRPO 학습 데이터 간의 중복률을 조절하며 Qwen3-8B 모델을 평가한 결과, 데이터 중복을 최소화할수록(0% 중복) 컴파일 및 의미론적 정확도가 유의미하게 향상됨을 발견했습니다.

🔑 시사점 및 한계

•

SFT와 GRPO 학습 단계 간 데이터 중복을 최소화하는 것이 자동 형식화 성능 향상에 효과적이며, 추가적인 계산 비용 없이 달성 가능합니다.

•

컴파일 오류율만을 평가하는 기존 방식으로는 발견하기 어려운, 컴파일은 성공하지만 의미론적으로 틀린 경우(compile semantic gaps)가 존재하며, 이를 파악하기 위한 이중 지표 평가의 중요성이 강조됩니다.

•

본 연구는 SFT-GRPO 데이터 중복을 학습 후 하이퍼파라미터로 활용하는 최초의 제어된 실험으로, 향후 다양한 작업과 모델에 대한 추가적인 연구가 필요합니다.

PDF 보기

Made with Slashpage