Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

R-4B: Incentivizing General-Purpose Auto-Thinking Capability in MLLMs via Bi-Mode Annealing and Reinforce Learning

Created by
  • Haebom

저자

Qi Yang, Bolin Ni, Shiming Xiang, Han Hu, Houwen Peng, Jie Jiang

개요

본 논문은 복잡한 추론 문제 해결에 뛰어난 성능을 보이는 단계별 사고 능력을 갖춘 다중 모드 대규모 언어 모델(MLLM)의 비효율성을 해결하기 위해, 문제의 복잡도에 따라 사고 여부를 적응적으로 결정하는 자동 사고 MLLM인 R-4B를 제안합니다. R-4B는 이중 모드 어닐링을 사용하여 사고 및 비사고 능력을 모두 갖추고, 이중 모드 정책 최적화(BPO)를 적용하여 사고 과정을 활성화할지 여부를 결정하는 모델의 정확도를 향상시킵니다. 다양한 주제를 다루는 신중하게 큐레이션된 데이터셋을 사용하여 사고 모드와 비사고 모드의 샘플을 모두 포함하여 모델을 훈련하고, 향상된 GRPO 프레임워크 하에서 두 번째 훈련 단계를 거쳐 각 입력 쿼리에 대해 두 모드 모두에서 응답을 생성하도록 정책 모델을 강제합니다. 실험 결과, R-4B는 25개의 까다로운 벤치마크에서 최첨단 성능을 달성하며, 대부분의 작업에서 Qwen2.5-VL-7B를 능가하고, 추론 집약적인 벤치마크에서 Kimi-VL-A3B-Thinking-2506 (16B)과 같은 더 큰 모델과 비슷한 성능을 더 낮은 계산 비용으로 달성합니다.

시사점, 한계점

시사점:
문제 복잡도에 따라 사고 여부를 적응적으로 결정하는 자동 사고 MLLM 아키텍처의 효용성을 보여줌.
기존 MLLM의 비효율적인 단계별 사고 과정을 개선하여 계산 비용을 절감하면서 성능을 향상시킬 수 있음을 제시.
제한된 매개변수로 대규모 모델과 비슷한 성능을 달성하여 경량화된 MLLM 개발에 기여.
한계점:
제안된 BPO 및 GRPO 프레임워크의 일반화 가능성에 대한 추가 연구 필요.
특정 데이터셋에 대한 성능 평가이므로 다른 도메인이나 작업에 대한 일반화 성능 검증 필요.
R-4B가 어떤 유형의 문제에서 비사고 모드를 사용하고 어떤 유형의 문제에서 사고 모드를 사용하는지에 대한 명확한 설명 부족.
👍