Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CDE: Curiosity-Driven Exploration for Efficient Reinforcement Learning in Large Language Models

Created by
  • Haebom

저자

Runpeng Dai, Linfeng Song, Haolin Liu, Zhenwen Liang, Dian Yu, Haitao Mi, Zhaopeng Tu, Rui Liu, Tong Zheng, Hongtu Zhu, Dong Yu

개요

본 논문은 검증 가능한 보상을 사용한 강화 학습(RLVR)에서 대형 언어 모델(LLM)의 추론 능력 향상을 위한 탐색 전략 개선에 초점을 맞추고 있습니다. 기존 RLVR 방법들의 조기 수렴 및 엔트로피 붕괴 문제를 해결하기 위해, 모델의 내재적 호기심을 활용한 호기심 기반 탐색(CDE) 프레임워크를 제안합니다. 행위자(actor)의 생성 응답에 대한 당황도와 비평가(critic)의 다중 헤드 아키텍처로부터 얻은 가치 추정치의 분산을 호기심 신호로 사용하여 RLVR 프레임워크 내에서 탐색 보너스로 활용합니다. 이론적 분석을 통해 행위자 기반 보너스가 과신 오류를 처벌하고 정답의 다양성을 증진시키며, 비평가 기반 보너스는 기존의 RL 탐색 보너스와 연결됨을 보여줍니다. 실험 결과, AIME 벤치마크에서 표준 RLVR 대비 약 3점의 성능 향상을 달성했으며, RLVR 내의 보정 붕괴 메커니즘을 분석하여 LLM의 일반적인 실패 모드를 밝힙니다.

시사점, 한계점

시사점:
LLM의 추론 능력 향상을 위한 효과적인 탐색 전략인 호기심 기반 탐색(CDE) 프레임워크 제시
행위자와 비평가의 호기심 신호를 활용한 새로운 탐색 보너스 설계 및 이론적 분석
AIME 벤치마크에서 기존 RLVR 대비 성능 향상을 실험적으로 검증
RLVR의 보정 붕괴 메커니즘 분석을 통한 LLM 실패 모드에 대한 이해 증진
한계점:
제시된 방법의 성능 향상이 AIME 벤치마크에 국한됨. 다른 벤치마크나 작업에서의 일반화 성능 검증 필요
호기심 신호의 정의 및 설정에 대한 추가적인 연구가 필요할 수 있음.
보정 붕괴 메커니즘에 대한 더욱 심층적인 분석 및 해결책 제시 필요
👍