Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

COPO: Consistency-Aware Policy Optimization

Created by
  • Haebom

저자

Jinghang Han, Jiawei Chen, Hang Shao, Hao Ma, Mingcheng Li, Xintian Shen, Lihao Zheng, Wei Chen, Tao Wei, Lihua Zhang

개요

본 논문은 강화학습을 통해 복잡한 문제 해결 과제에서 대규모 언어 모델(LLM)의 추론 능력을 향상시키는 연구에 관한 것이다. 특히, 규칙 기반 보상을 사용하는 DeepSeek R1의 등장 이후, 이러한 접근 방식이 이점 함수 계산 및 정책 최적화를 위한 저비용 대안으로 주목받고 있지만, 동일한 프롬프트에 대한 여러 응답이 동일한 결과(정답이든 오답이든)로 수렴할 때 그룹 기반 이점이 0으로 감소하는 문제점을 지적한다. 이는 기울기 소멸로 이어져 학습 효율성과 성능을 저해한다. 본 논문에서는 결과 일관성에 기반한 구조화된 전역 보상을 도입하여 이 문제를 해결하는 일관성 인식 정책 최적화 프레임워크를 제안한다. 전역 손실은 모델 출력이 높은 그룹 내 일관성을 보여도 의미 있는 학습 신호를 제공하여 전역적 관점에서 정확하고 자기 일관적인 추론 경로 생성을 장려한다. 또한 엔트로피 기반 소프트 블렌딩 메커니즘을 통합하여 지역 이점 추정과 전역 최적화 간의 균형을 동적으로 조절하여 탐색과 수렴 간의 전환을 가능하게 한다. 다양한 수학적 추론 벤치마크에서 성능 향상을 통해 제안된 프레임워크의 강건성과 일반적인 적용 가능성을 검증한다.

시사점, 한계점

시사점:
규칙 기반 보상을 사용하는 강화학습 기반 LLM 추론 향상 연구에 새로운 접근 방식 제시.
그룹 기반 이점의 소멸 문제를 해결하는 효과적인 일관성 인식 정책 최적화 프레임워크 제안.
전역 보상과 엔트로피 기반 소프트 블렌딩 메커니즘을 통한 학습 효율 및 성능 향상.
다양한 수학적 추론 벤치마크에서 성능 향상을 통해 방법의 유효성 검증.
공개된 코드를 통해 재현성 및 확장성 제공.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요. (다른 유형의 문제 또는 LLM에 대한 적용성 검증)
엔트로피 기반 소프트 블렌딩 메커니즘의 매개변수 조정에 대한 추가적인 연구 필요. (최적 매개변수 설정에 대한 가이드라인 제시)
특정 수학적 추론 벤치마크에 대한 성능 향상이 다른 유형의 문제에도 일반화되는지에 대한 추가적인 검증 필요.
👍