Sign In

What is the Alignment Objective of GRPO?

Created by
  • Haebom
Category
Empty

저자

Milan Vojnovic, Se-Young Yun

개요

본 논문은 강화 학습 기반 알고리즘인 GRPO (Group Policy Optimisation)를 통해 이루어지는 선호도 집계를 분석합니다. GRPO는 DeepSeek-R1-Zero 및 DeepSeekMath 와 같은 고급 AI 모델을 훈련하는 데 사용되며, 보상 선호도 모델을 이용하여 정책을 훈련합니다. 이 모델은 주어진 상황에 대한 여러 출력의 보상을 샘플링하고, 이를 shift-and-scale 정규화하여 계산됩니다. 또한, 기준 정책으로부터의 편차를 억제하기 위한 페널티 함수를 포함합니다. 논문에서는 GRPO 알고리즘의 정상 상태 정책을 특성화하는 프레임워크를 제시하고, 이를 통해 GRPO의 선호도 집계가 RLHF와 같은 다른 접근 방식에서 사용되는 표준 로그 합산과 근본적으로 다르다는 것을 밝힙니다. 특히, 2명의 그룹에서는 보상 선호도 모델이 쌍대 비교 선호도와 유사하며, 이진 질문, 2명의 그룹, 그리고 큰 그룹 크기의 한계에 대한 집계 선호도의 명시적인 특성을 제공합니다. 마지막으로, 페널티 함수로 직접 KL 다이버전스를 사용하거나, 스케일 정규화 없이 보상을 사용하는 등 GRPO 알고리즘을 수정하여 얻은 선호도 집계에 대해 논의합니다.

시사점, 한계점

시사점:
GRPO 알고리즘의 선호도 집계 메커니즘을 명확히 규명하고, 기존 방법(예: RLHF)과의 차이점을 제시합니다.
그룹 크기, 정규화 상수, 질문 답변의 신뢰 수준 등 매개변수가 집계 선호도에 미치는 영향을 분석합니다.
2명의 그룹에서 쌍대 비교 선호도와의 유사성을 통해 다른 정렬 방법과의 연관성을 보여줍니다.
GRPO 알고리즘의 수정을 통해 다양한 선호도 집계 방법의 특성을 비교 분석할 수 있는 기반을 제공합니다.
한계점:
현재 분석은 특정한 AI 모델과 알고리즘에 국한될 수 있습니다. 다른 유형의 AI 모델이나 강화 학습 알고리즘에 대한 일반화 가능성은 추가 연구가 필요합니다.
실제 응용 환경에서의 성능 평가 및 검증이 부족합니다. 실제 데이터를 사용한 실험을 통해 그 결과의 실용성을 확인해야 합니다.
복잡한 그룹 크기나 다양한 상황에 대한 선호도 집계의 일반적인 형태를 도출하는 데 한계가 있을 수 있습니다. 더욱 포괄적인 이론적 분석이 필요할 수 있습니다.
👍