Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Unearthing Gems from Stones: Policy Optimization with Negative Sample Augmentation for LLM Reasoning

Created by
  • Haebom

저자

Zhaohui Yang, Shilei Jiang, Chen Hu, Linjing Li, Shihong Deng, Daxin Jiang

개요

본 논문은 장문의 사고 과정(CoT) 패턴을 사용하는 추론 언어 모델의 최근 발전에 초점을 맞춥니다. 장문 CoT 모델의 롤아웃에 따른 상당한 계산 비용을 고려하여, 기존 학습 데이터셋의 활용도를 극대화하는 것이 중요해졌습니다. 기존 방법들이 부정적인 응답(negative samples)을 완전히 무시하거나 모든 토큰에 동일한 페널티를 적용하는 한계를 지적하며, 부정적인 응답이 자기 반성 및 오류 수정 단계와 같은 귀중한 구성 요소를 포함하고 있음을 분석합니다. 이를 해결하기 위해, 부정적 샘플 증강을 포함하는 행동 제약 정책 경사(BCPG-NSA)라는 새로운 오프라인 강화 학습 프레임워크를 제안합니다. BCPG-NSA는 샘플 분할, LLM과 PRM 판단자를 결합한 합의 기반 단계 정확성 평가, 그리고 부정적 샘플 내에서 긍정적 단계를 효과적으로 추출하도록 설계된 NSA를 사용한 정책 최적화의 세 단계로 구성됩니다. 실험 결과, BCPG-NSA는 동일한 학습 데이터셋을 사용하여 여러 어려운 수학/코딩 추론 벤치마크에서 기존 방법들을 능가하며, 향상된 샘플 효율성과 여러 반복으로 확장할 때의 강건성 및 확장성을 보여줍니다.

시사점, 한계점

시사점: 부정적 응답에서도 유용한 학습 신호를 추출하여 모델 성능을 향상시킬 수 있음을 보여줍니다. 기존 강화학습 기반 방법들의 한계를 극복하고, 샘플 효율성을 높이는 새로운 프레임워크를 제시합니다. 다양한 수학/코딩 추론 문제에 대한 뛰어난 성능을 실험적으로 검증합니다.
한계점: 제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요합니다. 다양한 종류의 문제 유형에 대한 성능 평가가 더 필요합니다. LLM과 PRM 판단자의 신뢰도에 대한 분석이 부족합니다. 계산 비용에 대한 자세한 분석이 필요합니다.
👍