Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Adversarial Training for Process Reward Models

Created by
  • Haebom
Category
Empty

저자

Gurusha Juneja, Deepak Nathani, William Yang Wang

개요

본 논문은 단계별 감독을 제공하여 LLM의 추론 능력을 향상시키는 Process Reward Models (PRMs)의 광범위한 채택을 가로막는 수동 단계별 주석의 높은 비용과 정적 훈련 데이터의 새로운 오류에 대한 일반화 부족 문제를 해결하기 위해 Adversarially Trained PRMs (\texttt{APRM})을 제안한다. \texttt{APRM}은 Generator($G$)가 PRM($R$)을 속이기 위해 추론 오류를 생성하도록 학습하고, $R$은 이를 동시에 감지하도록 학습하는 방식으로 작동한다. 이러한 상호 작용은 $R$에게 점진적으로 어려운 부정적 예시를 제공하여 수동 단계별 레이블 없이도 새로운 오류에 대한 견고성과 일반화 성능을 향상시킨다. 다양한 수학적 추론 벤치마크에서 \texttt{APRM}은 가장 강력한 PRM 기준선보다 해결사 정확도를 +3.4% 향상시켰고, out-of-distribution 작업에서 +5.3%의 향상을 달성했다.

시사점, 한계점

\texttt{APRM}은 수동 단계별 주석 없이도 PRM의 일반화 성능을 향상시킴
Adversarial training을 통해 PRM의 견고성을 높임
다양한 수학적 추론 벤치마크에서 향상된 성능을 보임
Out-of-distribution task에서 특히 뛰어난 성능 향상을 보임
논문에서 구체적인 한계점은 명시되지 않음 (추후 연구를 통해 밝혀질 수 있음)
👍