Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Jinpeng Wang, Chao Li, Ting Ye, Mengyuan Zhang, Wei Liu, Jian Luan

개요

강화 학습과 검증 가능한 보상(RLVR)은 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 데 잠재력이 있습니다. 기존 RLVR 방법은 조악한 보상, 보상 노이즈, 비효율적인 탐색과 같은 문제로 인해 불안정한 훈련과 엔트로피 붕괴를 초래합니다. 이 문제를 해결하기 위해, 본 논문은 내재적 신뢰 기반 그룹 상대 선호도 최적화(ICPO) 방법을 제안합니다. ICPO는 LLM이 서로 다른 응답을 생성할 확률이 추론 과정에 대한 자체 평가를 직접적으로 반영한다는 직관에 기반합니다. 선호도 모델링 아이디어를 바탕으로, ICPO는 동일한 입력 프롬프트 하에서 여러 응답의 상대적 생성 확률을 비교하여 각 응답에 대한 선호도 이점 점수를 계산하고, 이 점수를 검증 가능한 보상과 통합하여 탐색 과정을 안내합니다. ICPO는 조악한 보상과 보상 노이즈 문제를 완화할 뿐만 아니라 과도한 확신으로 인한 오류를 효과적으로 억제하고, 저평가된 고품질 응답의 상대적 우위를 강화하며, 모델이 특정 전략에 과적합되는 것을 방지하여 보다 철저한 탐색을 촉진합니다.

시사점, 한계점

ICPO는 조악한 보상, 보상 노이즈 문제를 완화합니다.
ICPO는 과도한 확신으로 인한 오류를 억제합니다.
ICPO는 저평가된 고품질 응답의 상대적 우위를 강화합니다.
ICPO는 모델이 특정 전략에 과적합되는 것을 방지합니다.
ICPO는 보다 철저한 탐색을 촉진합니다.
ICPO는 GRPO 대비 추론 능력을 꾸준히 향상시킵니다.
논문에서 구체적인 한계점은 명시되지 않음.
👍