Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

Created by
  • Haebom

저자

Hongze Tan, Jianfei Pan

개요

본 논문은 Group Relative Policy Optimization (GRPO)와 같은 강화학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 모든 토큰에 동일한 보상을 적용하는 조잡한 크레딧 할당으로 장쇄 추론 작업에서 한계를 보입니다. 본 논문에서는 **동적 엔트로피 가중치(Dynamic Entropy Weighting)**를 제안하여 이 문제를 해결합니다. 정답에서 높은 엔트로피를 가진 토큰이 더 높은 성능 상한선으로 정책을 안내할 수 있다는 아이디어를 바탕으로, 두 가지 방법을 통해 보다 세분화된 보상 신호를 생성합니다. 첫째, **그룹 토큰 정책 최적화(GTPO)**는 각 토큰에 엔트로피 가중치가 적용된 보상을 할당하여 세분화된 크레딧 할당을 수행합니다. 둘째, **시퀀스 수준 그룹 상대 정책 최적화(GRPO-S)**는 각 시퀀스에 해당 시퀀스의 평균 토큰 엔트로피를 기반으로 엔트로피 가중치가 적용된 보상을 할당합니다. 실험 결과, 제안된 방법이 강력한 DAPO 기준 모델보다 성능이 훨씬 뛰어나며, 엔트로피 가중치 메커니즘이 성능 향상의 주요 원동력임을 확인했습니다. 이는 모델의 심층 추론 향상을 위한 더 나은 방법을 제시합니다.

시사점, 한계점

시사점:
동적 엔트로피 가중치를 사용하여 LLM의 장쇄 추론 성능을 향상시킬 수 있음을 보여줍니다.
GTPO와 GRPO-S 알고리즘을 통해 기존 GRPO의 한계를 극복하고 더욱 세분화된 크레딧 할당이 가능함을 제시합니다.
엔트로피 가중치 메커니즘이 LLM의 심층 추론 향상에 중요한 역할을 함을 실험적으로 증명합니다.
DAPO 기준 모델보다 우수한 성능을 달성하여 제안된 방법의 효과성을 입증합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 종류의 LLM과 추론 작업에 대한 실험 결과가 더 필요합니다.
엔트로피 가중치의 최적 값 설정에 대한 연구가 추가적으로 필요할 수 있습니다.
계산 비용 증가에 대한 고려가 필요할 수 있습니다.
👍