Sign In

Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Author
  • Haebom
Category
Empty

저자

Weichen Yu, Xiaomin Li, Yizhou Zhao, Xiaoze Liu, Ruowang Zhang, Haixin Wang, Yinyi Luo, Chen Henry Wu, Gaurav Mittal, Matt Fredrikson, Yu Hu

💡 개요

본 논문은 대규모 언어 모델(LLM)이 희소한 검증 보상으로 사후 훈련될 때 발생하는 문제를 해결하기 위해 다중 롤아웃 온-폴리시 증류(MOPD) 방법을 제안합니다. MOPD는 학생의 여러 롤아웃 그룹을 활용하여 성공 및 실패 사례를 모두 고려한 교사 신호를 구성하며, 이를 통해 롤아웃 간의 독립성을 제거하고 더 풍부한 지도 학습을 가능하게 합니다. 실험 결과, MOPD는 표준 온-폴리시 증류보다 일관되게 성능 향상을 보였으며, 이는 인스턴스별 적응적인 지도 학습이 이루어졌음을 시사합니다.

🔑 시사점 및 한계

시사점 1: LLM의 온-폴리시 증류에서 학생이 생성한 다양한 롤아웃(성공 및 실패 포함)은 단순히 개별 샘플로 취급되기보다 상호 참조하여 더 효과적인 학습 신호를 생성할 수 있습니다.
시사점 2: 성공적인 롤아웃은 올바른 추론 패턴을 학습하도록 돕고, 실패한 롤아웃은 발생 가능한 오류를 식별하여 피하도록 지도하는 데 유용하며, 이러한 혼합된 컨텍스트가 검증자 보상과의 더 나은 정렬을 유도합니다.
한계점 또는 향후 과제: 제안된 MOPD 방법이 다양한 LLM 아키텍처 및 태스크에 걸쳐 일반화될 수 있는지에 대한 추가적인 검증이 필요하며, 교사 신호 구성 방식의 최적화를 위한 연구가 필요할 수 있습니다.
👍