Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTPO and GRPO-S: Token and Sequence-Level Reward Shaping with Policy Entropy

작성자
  • Haebom

저자

Hongze Tan, Jianfei Pan

개요

본 논문은 Group Relative Policy Optimization (GRPO)와 같은 강화학습 알고리즘을 사용하여 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 대해 다룹니다. 기존 GRPO는 시퀀스 내 모든 토큰에 동일한 보상을 적용하는 조잡한 크레딧 할당으로 장기 추론 작업에서 한계를 보입니다. 이를 해결하기 위해 동적 엔트로피 가중치(Dynamic Entropy Weighting) 기법을 제시합니다. 정답에서 높은 엔트로피를 가진 토큰이 더 높은 성능을 달성하도록 정책을 유도한다는 핵심 아이디어를 바탕으로, 두 가지 방법을 통해 보다 세분화된 보상 신호를 생성합니다. 첫째, **Group Token Policy Optimization (GTPO)**는 각 토큰에 엔트로피 가중치 보상을 할당하여 세분화된 크레딧 할당을 수행합니다. 둘째, **Sequence-Level Group Relative Policy Optimization (GRPO-S)**는 각 시퀀스에 해당 시퀀스의 평균 토큰 엔트로피 기반의 엔트로피 가중치 보상을 할당합니다. 실험 결과, 제안된 방법이 강력한 DAPO 기준 모델보다 성능이 크게 향상됨을 보여주며, 엔트로피 가중치 메커니즘이 성능 향상의 주요 원인임을 확인합니다.

시사점, 한계점

시사점:
LLM의 장기 추론 능력 향상을 위한 새로운 강화학습 기법 제시.
동적 엔트로피 가중치를 이용한 세분화된 크레딧 할당으로 성능 향상 가능성 제시.
GTPO와 GRPO-S 두 가지 방법을 통해 다양한 접근 방식 제시.
DAPO 기준 모델 대비 성능 향상을 통해 효과 검증.
한계점:
제시된 방법의 일반화 성능에 대한 추가 연구 필요.
다양한 LLM 및 작업에 대한 추가 실험 필요.
엔트로피 가중치의 최적화 방안에 대한 추가 연구 필요.
계산 비용 증가 가능성.
👍