Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

Created by
  • Haebom

저자

Zhaohui Yang, Yuxiao Ye, Shilei Jiang, Chen Hu, Linjing Li, Shihong Deng, Daxin Jiang

개요

본 논문은 긴 사고 과정(CoT) 패턴을 사용하는 추론 언어 모델의 최근 발전에 초점을 맞추고 있습니다. 긴 CoT 모델에서 롤아웃의 상당한 계산 비용을 고려하여, 고정된 훈련 데이터셋의 유용성을 극대화하는 것이 중요합니다. 기존 방법들이 부정적인 응답에서 얻을 수 있는 자기 반성 및 오류 수정 단계와 같은 귀중한 구성 요소를 무시하거나 모든 토큰에 동일한 페널티를 적용하는 문제점을 지적하며, 이를 해결하기 위해 부정적 샘플 증강을 포함하는 행동 제약 정책 경사(BCPG-NSA)라는 새로운 오프라인 강화 학습 프레임워크를 제안합니다. BCPG-NSA는 샘플 분할, LLM 및 PRM 판단자를 결합한 합의 기반 단계 정확성 평가, 그리고 부정적 샘플 내에서 긍정적 단계를 효과적으로 채굴하도록 설계된 NSA를 사용한 정책 최적화의 세 단계로 구성됩니다. 실험 결과, BCPG-NSA는 동일한 훈련 데이터셋을 사용하여 여러 어려운 수학/코딩 추론 벤치마크에서 기준 모델을 능가하며, 향상된 샘플 효율성과 여러 반복으로 확장될 때의 강건성 및 확장성을 보여줍니다.

시사점, 한계점

시사점:
부정적 샘플에서도 유용한 학습 신호를 추출하여 모델 성능 향상에 기여할 수 있음을 보여줌.
제안된 BCPG-NSA 프레임워크는 샘플 효율성을 높이고, 강건성 및 확장성을 향상시킴.
긴 CoT 모델의 효율적인 학습을 위한 새로운 접근 방식을 제시함.
한계점:
LLM과 PRM 판단자의 성능에 의존적일 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함.
특정 유형의 추론 문제에만 효과적일 가능성이 있음.
샘플 분할 및 합의 기반 단계 정확성 평가의 세부적인 과정에 대한 설명이 부족할 수 있음.
👍