Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

Created by
  • Haebom

저자

Hongze Tan, Jianfei Pan

개요

본 논문은 그룹 상대 정책 최적화(GRPO)와 같은 강화 학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 시퀀스 내 모든 토큰에 균일한 보상을 적용하는 조잡한 크레딧 할당으로 장쇄 추론 과제에서 한계를 보입니다. 이 논문은 **동적 엔트로피 가중치(Dynamic Entropy Weighting)**를 제시하여 이 문제를 해결합니다. 핵심 아이디어는 정답에서 높은 엔트로피를 가진 토큰이 정책을 더 높은 성능 수준으로 안내할 수 있다는 것입니다. 이를 통해 두 가지 방법, 즉 **그룹 토큰 정책 최적화(GTPO)**와 **시퀀스 수준 그룹 상대 정책 최적화(GRPO-S)**를 사용하여 보다 정밀한 정책 업데이트를 위한 세분화된 보상 신호를 생성합니다. GTPO는 각 토큰에 엔트로피 가중 보상을 할당하고, GRPO-S는 각 시퀀스에 평균 토큰 엔트로피 기반의 엔트로피 가중 보상을 할당합니다. 실험 결과, 제안된 방법들이 강력한 DAPO 기준 모델을 상당히 능가함을 보여주며, 엔트로피 가중 메커니즘이 성능 향상의 주요 원동력임을 확인합니다.

시사점, 한계점

시사점:
동적 엔트로피 가중치를 이용하여 LLM의 장쇄 추론 성능을 향상시키는 새로운 방법을 제시합니다.
GTPO와 GRPO-S 두 가지 방법을 통해 세분화된 크레딧 할당을 가능하게 하여 정책 업데이트의 효율성을 높였습니다.
실험 결과를 통해 엔트로피 가중 메커니즘의 효과를 검증하고, 기존 방법 대비 성능 향상을 확인했습니다.
LLM의 심층 추론 능력 향상에 대한 새로운 방향을 제시합니다.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다.
다양한 LLM 아키텍처와 과제에 대한 추가적인 실험이 필요합니다.
엔트로피 가중치의 최적 값을 결정하는 방법에 대한 추가적인 연구가 필요할 수 있습니다.
👍