Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

What is the Alignment Objective of GRPO?

Created by
  • Haebom
Category
Empty

저자

Milan Vojnovic, Se-Young Yun

개요

본 논문은 강화학습 알고리즘인 GRPO(Group Policy Optimisation)의 선호도 집계 방식을 분석합니다. GRPO는 DeepSeek-R1-Zero 및 DeepSeekMath와 같은 고급 AI 모델을 훈련하는 데 사용되며, 보상 선호도 모델을 이용하여 정책을 학습합니다. 이 모델은 주어진 상황에 대한 여러 출력의 보상을 샘플링하고, shift-and-scale 정규화를 적용하여 계산됩니다. 또한, 기준 정책으로부터의 편차를 억제하기 위한 패널티 함수를 포함합니다. 본 논문은 GRPO 알고리즘의 정상 상태 정책을 특성화하는 프레임워크를 제시하고, 이 분석을 통해 GRPO의 선호도 집계가 RLHF와 같은 다른 접근 방식에서 사용되는 표준 로그 합산과 근본적으로 다르다는 것을 밝힙니다. 특히, 그룹 크기가 2인 경우 보상 선호도 모델이 쌍대 비교 선호도와 일치하며, 이항 질문, 그룹 크기 2, 그리고 큰 그룹 크기의 한계에서 집계 선호도에 대한 명시적인 특성을 제공합니다. 마지막으로, 패널티로 직접 KL 발산을 사용하거나 척도 정규화 없이 보상을 사용하도록 GRPO 알고리즘을 수정하여 얻은 선호도 집계에 대해 논의합니다.

시사점, 한계점

시사점: GRPO 알고리즘의 선호도 집계 메커니즘을 명확히 규명하여 기존 RLHF와의 차이점을 제시함. 쌍대 비교 선호도와의 관계를 밝힘으로써 다른 정렬 방법과의 연관성을 보여줌. 정규화 상수 및 질문 답변의 신뢰 수준과 같은 매개변수에 대한 집계 선호도의 의존성을 분석함.
한계점: 현재 분석은 특정한 알고리즘(GRPO)에 국한됨. 다양한 유형의 선호도 데이터나 다른 강화학습 알고리즘에 대한 일반화 가능성에 대한 추가 연구 필요. 실제 응용에 대한 실험적 검증이 부족함.
👍