Sign In

Reasoning-Aware GRPO using Process Mining

Created by
  • Haebom
Category
Empty

저자

Taekhyun Park, Yongjae Lee, Hyerim Bae

PM4GRPO: Reasoning-aware Group Relative Policy Optimization for Post-training Large Reasoning Models

개요

강화 학습 기반의 후처리 기법이 대규모 추론 모델(LRM)의 다단계 추론을 가능하게 하는 데 중요하지만, 현재의 보상 체계는 일반적으로 결과 중심적이다. 본 논문은 PM4GRPO를 제안하는데, 이는 표준 답변/형식 보상에 추론 과정에 대한 신호를 추가하는 Reasoning-aware Group Relative Policy Optimization (GRPO) 기법이다. 이를 위해, 프로세스 마이닝 기술을 활용하여 정책 모델의 추론이 사전 훈련된 교사 모델과 얼마나 가깝게 일치하는지를 측정하는 스칼라 적합성 보상을 계산한다. 5개의 벤치마크에 대한 실험 결과는 PM4GRPO가 GRPO 기반 후처리에 대한 기존 방법론보다 유의미하게 우수함을 보여준다.

시사점, 한계점

시사점:
프로세스 마이닝을 활용한 Reasoning-aware GRPO가 정책 모델의 추론 능력을 효과적으로 향상시킴을 입증.
결과 중심적인 보상 체계에서 벗어나 추론 과정에 대한 보상을 추가하여 모델의 성능을 향상시킴.
5개의 벤치마크에서 기존 방법론 대비 우수한 성능을 보임.
한계점:
논문에서 구체적인 한계점은 제시되지 않음. (논문의 요약에서 한계점을 직접적으로 언급하지 않음.)
👍