Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle

Created by
  • Haebom

저자

Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 추론 능력 향상을 위한 강화 학습(RL)의 효율성을 높이는 방법을 제시합니다. 기존 RL 파이프라인은 '이점 붕괴(Advantage Collapsing)'와 '전개 침묵(Rollout Silencing)'이라는 두 가지 문제로 인해 훈련 효율이 떨어지는데, 이는 대부분의 이점이 0에 가깝게 집중되고, 시간이 지남에 따라 0이 아닌 기울기를 생성하는 전개의 비율이 감소하기 때문입니다. 이를 해결하기 위해, 본 논문에서는 궤적 샘플링과 배치 구성을 동적으로 재구성하여 RL 미세 조정 효율을 향상시키는 Shuffle-R1 프레임워크를 제안합니다. Shuffle-R1은 높은 대비를 가진 궤적을 선택하여 기울기 신호 품질을 향상시키는 '쌍방향 궤적 샘플링(Pairwise Trajectory Sampling)'과, 가치 있는 전개를 노출시키는 '이점 기반 궤적 셔플(Advantage-based Trajectory Shuffle)'을 도입합니다. 다양한 추론 벤치마크 실험 결과, Shuffle-R1은 최소한의 오버헤드로 강력한 RL 기준 모델보다 성능이 우수함을 보여줍니다.

시사점, 한계점

시사점:
MLLM의 추론 능력 향상을 위한 RL 훈련의 효율성을 크게 개선하는 새로운 프레임워크(Shuffle-R1)를 제시.
이점 붕괴와 전개 침묵 문제를 효과적으로 해결하여 최적화된 기울기 업데이트를 가능하게 함.
데이터 중심적 접근 방식을 통해 RL 훈련의 효율성을 높일 수 있음을 보여줌.
다양한 추론 벤치마크에서 기존 방법 대비 우수한 성능을 입증.
한계점:
Shuffle-R1의 일반화 성능에 대한 추가적인 연구가 필요.
특정 유형의 MLLM이나 추론 작업에만 효과적일 가능성 존재.
제안된 방법의 계산 비용 및 복잡성에 대한 상세한 분석 부족.
👍