Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GTPO: Trajectory-Based Policy Optimization in Large Language Models

Created by
  • Haebom

저자

Marco Simoni, Aleksandar Fontana, Giulio Rossolini, Andrea Saracino

개요

본 논문은 기존의 그룹 상대 정책 최적화(GRPO)의 두 가지 주요 한계점, 즉 (i) 토큰이 긍정적 및 부정적 보상을 모두 가진 완성본에 자주 나타나 상반되는 기울기 업데이트를 유발하여 출력 확률을 감소시키는 문제와 (ii) 부정적 보상을 받은 완성본이 자신감 있는 응답을 벌하고, 모델의 결정을 있을 법하지 않은 토큰으로 이동시켜 출력 분포를 평평하게 하고 학습을 저하시키는 문제를 밝히고 분석합니다. 이러한 문제를 해결하기 위해, 본 논문은 그룹 상대 궤적 기반 정책 최적화(GTPO)를 제시합니다. GTPO는 상반되는 보상을 가진 완성본에서 같은 위치에 나타나는 충돌 토큰을 식별하고, 부정적 업데이트는 건너뛰면서 긍정적 업데이트는 증폭하여 이를 보호합니다. 또한, 정책 붕괴를 방지하기 위해, GTPO는 엔트로피가 증명 가능한 임계값을 초과하는 완성본을 필터링합니다. GTPO는 GRPO와 달리 KL-divergence 정규화에 의존하지 않으므로 훈련 중 참조 모델이 필요 없으며, GSM8K, MATH 및 AIME 2024 벤치마크에 대한 여러 실험을 통해 더 큰 훈련 안정성과 향상된 성능을 보장합니다.

시사점, 한계점

시사점:
GRPO의 한계점을 명확히 밝히고, 이를 개선하는 새로운 정책 최적화 방법인 GTPO를 제시함.
GTPO는 KL-divergence 정규화가 필요 없어 훈련 과정을 단순화하고 효율성을 높임.
GSM8K, MATH, AIME 2024 벤치마크에서 GTPO의 우수한 성능을 실험적으로 검증함.
더 안정적이고 효과적인 대규모 언어 모델 훈련 및 정렬 전략을 제공함.
한계점:
GTPO의 엔트로피 임계값 설정에 대한 추가적인 분석 및 최적화가 필요할 수 있음.
제시된 방법의 일반성 및 다양한 모델 아키텍처에 대한 적용성에 대한 추가 연구가 필요함.
실험 결과는 특정 벤치마크에 국한되어 있으며, 다른 작업 또는 데이터셋에서의 성능은 추가적인 검증이 필요함.
👍