DIVA-GRPO: Enhancing Multimodal Reasoning through Difficulty-Adaptive Variant Advantage

Created by

Haebom

저자

Haowen Gao, Zhenyu Zhang, Liang Pang, Fangda Guo, Hongjian Dou, Guannan Lv, Shaoguo Liu, Tingting Gao, Huawei Shen, Xueqi Cheng

💡 개요

본 논문은 멀티모달 대형 언어 모델(MLLMs)의 장기 추론 능력을 향상시키는 강화 학습 기법인 GRPO의 단점, 특히 어려운 문제에서의 희소 보상 및 너무 쉬운/어려운 문제에서의 어드밴티지 소실 문제를 해결하기 위한 DIVA-GRPO를 제안합니다. DIVA-GRPO는 전역적 관점에서 난이도 적응형 변형 이점을 조정하여, 문제 난이도를 동적으로 평가하고 적절한 난이도의 변형을 샘플링하며, 난이도 가중 및 정규화 스케일링을 통해 지역 및 전역 그룹 간의 어드밴티지를 계산합니다. 이를 통해 보상 희소성과 어드밴티지 소실 문제를 완화하고 학습 안정성을 개선합니다.

🔑 시사점 및 한계

•

GRPO의 효과를 유지하면서 보상 희소성과 어드밴티지 소실 문제를 효과적으로 해결하는 새로운 강화 학습 접근 방식을 제시합니다.

•

난이도 적응형 변형 샘플링 및 어드밴티지 계산 방식을 통해 학습 효율성과 추론 성능을 동시에 향상시킵니다.

•

현재 제안된 방법은 특정 멀티모달 추론 벤치마크에서 성능을 입증하였으나, 다양한 도메인이나 더욱 복잡한 추론 태스크에 대한 일반화 가능성은 추가 연구가 필요합니다.

PDF 보기

Made with Slashpage