Multi-Rollout On-Policy Distillation via Peer Successes and Failures

Author

Haebom

저자

Weichen Yu, Xiaomin Li, Yizhou Zhao, Xiaoze Liu, Ruowang Zhang, Haixin Wang, Yinyi Luo, Chen Henry Wu, Gaurav Mittal, Matt Fredrikson, Yu Hu

💡 개요

본 논문은 대규모 언어 모델(LLM)이 희소한 검증 보상으로 사후 훈련될 때 발생하는 문제를 해결하기 위해 다중 롤아웃 온-폴리시 증류(MOPD) 방법을 제안합니다. MOPD는 학생의 여러 롤아웃 그룹을 활용하여 성공 및 실패 사례를 모두 고려한 교사 신호를 구성하며, 이를 통해 롤아웃 간의 독립성을 제거하고 더 풍부한 지도 학습을 가능하게 합니다. 실험 결과, MOPD는 표준 온-폴리시 증류보다 일관되게 성능 향상을 보였으며, 이는 인스턴스별 적응적인 지도 학습이 이루어졌음을 시사합니다.

🔑 시사점 및 한계

•

시사점 1: LLM의 온-폴리시 증류에서 학생이 생성한 다양한 롤아웃(성공 및 실패 포함)은 단순히 개별 샘플로 취급되기보다 상호 참조하여 더 효과적인 학습 신호를 생성할 수 있습니다.

•

시사점 2: 성공적인 롤아웃은 올바른 추론 패턴을 학습하도록 돕고, 실패한 롤아웃은 발생 가능한 오류를 식별하여 피하도록 지도하는 데 유용하며, 이러한 혼합된 컨텍스트가 검증자 보상과의 더 나은 정렬을 유도합니다.

•

한계점 또는 향후 과제: 제안된 MOPD 방법이 다양한 LLM 아키텍처 및 태스크에 걸쳐 일반화될 수 있는지에 대한 추가적인 검증이 필요하며, 교사 신호 구성 방식의 최적화를 위한 연구가 필요할 수 있습니다.

PDF 보기

Made with Slashpage