Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Improving Data Efficiency for LLM Reinforcement Fine-tuning Through Difficulty-targeted Online Data Selection and Rollout Replay

Created by
  • Haebom

저자

Yifan Sun, Jingyan Shen, Yibin Wang, Tianyu Chen, Zhendong Wang, Mingyuan Zhou, Huan Zhang

개요

강화 학습(RL)은 대규모 언어 모델(LLM)의 미세 조정을 위한 효과적인 접근 방식이 되었지만, 자원 소모가 크다는 단점이 있다. 본 논문에서는 LLM RL 미세 조정의 데이터 효율성을 개선하기 위해 두 가지 기술을 제안한다. 첫째, 적절한 난이도의 질문을 우선시하는 난이도 타겟 온라인 데이터 선택을 제안한다. 이를 위해, 소규모 질문 세트에 대한 롤아웃만으로 난이도를 효율적으로 추정하는 어텐션 기반 프레임워크를 개발했다. 둘째, 롤아웃 재사용을 위한 롤아웃 리플레이 메커니즘을 도입하여 롤아웃 비용을 절감했다. 6개의 LLM-데이터셋 조합에 대한 실험 결과, 제안하는 방법은 기존 GRPO 알고리즘과 동일한 수준의 성능을 유지하면서 RL 미세 조정 시간을 23%에서 62%까지 단축했다.

시사점, 한계점

데이터 효율성을 높이기 위한 새로운 기술 제안: 난이도 타겟 온라인 데이터 선택 및 롤아웃 리플레이.
자원 효율적인 LLM RL 미세 조정 가능성 제시.
6개의 LLM-데이터셋 조합에 대한 실험으로 방법론의 효과 검증.
GRPO 알고리즘 대비 성능 향상 확인.
코드 공개로 재현 가능성 및 후속 연구 촉진.
한계: 특정 LLM 및 데이터셋 조합에 대한 결과만 제시되어 일반화 어려움.
한계: 최적의 하이퍼파라미터 설정 및 일반적인 RL 알고리즘과의 비교 분석 부족.
👍