Credit Where It is Due: Cross-Modality Connectivity Drives Precise Reinforcement Learning for MLLM Reasoning

Created by

Haebom

저자

Zhengbo Jiao, Shaobo Wang, Zifan Zhang, Wei Wang, Bing Zhao, Hu Wei, Linfeng Zhang

💡 개요

본 연구는 멀티모달 대규모 언어 모델(MLLM)의 추론 능력 향상을 위한 강화학습(RL)에서 시각적 증거의 통합 방식을 탐구합니다. MLLM의 추론 능력 향상에 기여하는 강화학습과의 연관성을 분석한 결과, 소수의 토큰만이 강한 시각-텍스트 연관성을 보이며 추론의 시각적 근거 역할을 한다는 것을 발견했습니다. 이를 바탕으로 제안된 AT-RL 프레임워크는 그래프 기반 클러스터링을 통해 이러한 핵심 토큰에 선택적으로 강화학습을 적용하여, 적은 오버헤드로도 MLLM의 추론 성능을 크게 향상시킵니다.

🔑 시사점 및 한계

•

MLLM의 추론 성능은 단순히 토큰의 양이 아닌, 시각적 근거의 정확성에 의해 결정됩니다.

•

시각-텍스트 간 높은 연결성을 갖는 토큰(앵커 토큰)이 MLLM의 강화학습 과정에서 중요한 역할을 하며, 이를 집중적으로 학습시키는 것이 효과적입니다.

•

AT-RL은 경량 프레임워크로, 적은 계산량 증가에도 MLLM의 추론 능력을 상당한 수준으로 끌어올릴 수 있습니다.

•

학습에서 시각적 앵커가 아닌 토큰에만 집중할 경우 오히려 성능이 저하될 수 있어, 정확한 신용 할당의 중요성을 강조합니다.

•

향후 연구에서는 다양한 멀티모달 태스크 및 MLLM 아키텍처에 AT-RL을 적용하여 일반화 가능성을 탐색하고, 앵커 토큰 식별 및 강화 방식을 더욱 고도화할 필요가 있습니다.

PDF 보기

Made with Slashpage