Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AdaCuRL: Adaptive Curriculum Reinforcement Learning with Invalid Sample Mitigation and Historical Revisiting

Created by
  • Haebom
Category
Empty

저자

Renda Li, Hailang Huang, Fei Wei, Feng Xiong, Yong Wang, Xiangxiang Chu

개요

강화 학습 (RL)을 사용하여 대규모 언어 모델 (LLM)의 추론 능력을 향상시키는 연구. 기존 방법의 문제점인 Gradient Starvation 및 Policy Degradation을 해결하기 위해, AdaCuRL이라는 적응형 커리큘럼 강화 학습 프레임워크를 제안. AdaCuRL은 coarse-to-fine 난이도 추정을 통한 적응형 커리큘럼 스케줄링, 데이터 재방문 메커니즘, 적응형 참조 및 희소 KL 전략을 통합하여 성능을 향상시킴. 다양한 추론 벤치마크에서 LLM 및 MLLM 모두에 대해 상당한 성능 향상을 보임.

시사점, 한계점

시사점:
AdaCuRL은 LLM 및 MLLM의 추론 능력 향상에 기여.
Gradient Starvation 및 Policy Degradation 문제를 해결.
CoT annotation의 노동 집약적인 문제를 해결하고, 수동 커리큘럼 설계의 어려움을 완화.
다양한 벤치마크에서 일관된 성능 향상을 보임.
한계점:
구체적인 AdaCuRL의 구현 및 세부 사항은 논문에서 확인 필요.
특정 벤치마크에 대한 성능이 다른 모델에 비해 상대적으로 낮은 경우, 그 원인 분석이 필요.
실제 환경에서의 적용 가능성 및 확장성에 대한 추가 연구 필요.
👍