Group-Aware Reinforcement Learning for Output Diversity in Large Language Models
Created by
Haebom
Category
Empty
저자
Oron Anschel, Alon Shoshan, Adam Botach, Shunit Haviv Hakimi, Asaf Gendler, Emanuel Ben Baruch, Nadav Bhonker, Igor Kviatkovsky, Manoj Aggarwal, Gerard Medioni
개요
본 논문은 대규모 언어 모델(LLM)이 다양한 작업에서 유효한 답변이 많음에도 불구하고 동일한 몇 가지 답변을 반복적으로 생성하는 '모드 붕괴' 현상을 해결하기 위한 새로운 방법인 Group-Aware Policy Optimization (GAPO)를 제안합니다. GAPO는 최근의 Group Relative Policy Optimization (GRPO)를 확장하여 그룹 전체에서 보상을 계산함으로써 다양성 및 커버리지와 같은 그룹 수준의 속성으로부터 학습할 수 있도록 합니다. 특히, GAPO는 유효한 LLM 완성에 대해 균일한 샘플링을 장려하는 주파수 인식 보상 함수를 사용하여 학습되며, 표준 LLM 벤치마크 (GSM8K, MATH, HumanEval, MMLU-Pro)에서 정확도를 저하시키지 않으면서 다양한 모델 응답을 생성합니다. 코드 공개 예정입니다.
시사점, 한계점
•
시사점:
◦
GAPO는 LLM의 모드 붕괴 문제를 해결하여 답변의 다양성을 향상시킵니다.
◦
GAPO는 정확도를 유지하면서 다양한 답변을 생성할 수 있습니다.
◦
GAPO는 GSM8K, MATH, HumanEval, MMLU-Pro와 같은 다양한 벤치마크에서 효과적입니다.
◦
GAPO는 GRPO를 기반으로 하여 구현 및 적용이 용이할 것으로 예상됩니다.
•
한계점:
◦
GAPO의 성능은 보상 함수의 설계에 의존적일 수 있습니다.
◦
논문에서 제시된 특정 보상 함수 외의 다른 설정에서의 일반화 가능성을 추가적으로 검증해야 합니다.