Shuffle-R1: Efficient RL framework for Multimodal Large Language Models via Data-centric Dynamic Shuffle
Created by
Haebom
저자
Linghao Zhu, Yiran Guan, Dingkang Liang, Jianzhong Ju, Zhenbo Luo, Bin Qin, Jian Luan, Yuliang Liu, Xiang Bai
개요
본 논문은 다중 모달 대규모 언어 모델(MLLM)의 추론 능력 향상을 위한 강화 학습(RL)의 효율성을 높이는 방법을 제시합니다. 기존 RL 파이프라인은 '이점 붕괴(Advantage Collapsing)'와 '전개 침묵(Rollout Silencing)'이라는 두 가지 문제로 인해 훈련 효율이 떨어지는데, 이는 대부분의 이점이 0에 가깝게 집중되고, 시간이 지남에 따라 0이 아닌 기울기를 생성하는 전개의 비율이 감소하기 때문입니다. 이를 해결하기 위해, 본 논문에서는 궤적 샘플링과 배치 구성을 동적으로 재구성하여 RL 미세 조정 효율을 향상시키는 Shuffle-R1 프레임워크를 제안합니다. Shuffle-R1은 높은 대비를 가진 궤적을 선택하여 기울기 신호 품질을 향상시키는 '쌍방향 궤적 샘플링(Pairwise Trajectory Sampling)'과, 가치 있는 전개를 노출시키는 '이점 기반 궤적 셔플(Advantage-based Trajectory Shuffle)'을 도입합니다. 다양한 추론 벤치마크 실험 결과, Shuffle-R1은 최소한의 오버헤드로 강력한 RL 기준 모델보다 성능이 우수함을 보여줍니다.
시사점, 한계점
•
시사점:
◦
MLLM의 추론 능력 향상을 위한 RL 훈련의 효율성을 크게 개선하는 새로운 프레임워크(Shuffle-R1)를 제시.
◦
이점 붕괴와 전개 침묵 문제를 효과적으로 해결하여 최적화된 기울기 업데이트를 가능하게 함.