Sign In

SFT-GRPO Data Overlap as a Post-Training Hyperparameter for Autoformalization

作者
  • Haebom
カテゴリー
Empty

저자

Xiaole Su, Kasey Zhang, Andy Lyu

💡 개요

본 연구는 자동 형식화(autoformalization) 작업에서 SFT(Supervised Fine-Tuning)와 GRPO(Group Relative Policy Optimization)의 데이터 중복성이 모델 성능에 미치는 영향을 탐구합니다. SFT와 GRPO 학습 데이터 간의 중복률을 조절하며 Qwen3-8B 모델을 평가한 결과, 데이터 중복을 최소화할수록(0% 중복) 컴파일 및 의미론적 정확도가 유의미하게 향상됨을 발견했습니다.

🔑 시사점 및 한계

SFT와 GRPO 학습 단계 간 데이터 중복을 최소화하는 것이 자동 형식화 성능 향상에 효과적이며, 추가적인 계산 비용 없이 달성 가능합니다.
컴파일 오류율만을 평가하는 기존 방식으로는 발견하기 어려운, 컴파일은 성공하지만 의미론적으로 틀린 경우(compile semantic gaps)가 존재하며, 이를 파악하기 위한 이중 지표 평가의 중요성이 강조됩니다.
본 연구는 SFT-GRPO 데이터 중복을 학습 후 하이퍼파라미터로 활용하는 최초의 제어된 실험으로, 향후 다양한 작업과 모델에 대한 추가적인 연구가 필요합니다.
👍