Sign In

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Created by
  • Haebom
Category
Empty

저자

Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh

개요

본 논문은 단순 규칙 기반 인센티브를 사용한 강화 학습을 통해 대규모 언어 모델에서 복잡한 추론 능력을 자율적으로 개발하는 DeepSeek R1의 성공을 다중 모달 추론으로 확장한 연구 결과를 제시합니다. 비지도 학습된 20억 파라미터 Qwen2-VL-2B 모델에 강화 학습을 적용하여 SAT 데이터셋을 학습시킨 결과, CVBench에서 59.47%의 정확도를 달성하여 기저 모델보다 약 30%, 지도 학습 설정보다 약 2% 향상된 성능을 보였습니다. 또한, 지시 모델을 사용하여 R1과 같은 추론 능력을 달성하려는 시도와 그 실패 사례 및 통찰력을 공유하며, 지시 모델에 강화 학습을 적용하면 단순한 추론 경로가 생성되고, 단순 길이 보상은 추론 능력을 유도하는 데 비효율적임을 밝혔습니다.

시사점, 한계점

시사점: 비지도 학습된 20억 파라미터의 다중 모달 모델에서도 DeepSeek R1과 유사한 복잡한 추론 능력을 강화 학습으로 성공적으로 구현 가능함을 보여줌. 기존 SFT 방식보다 우수한 성능 달성.
한계점: 지시 모델에 강화 학습을 적용했을 때 단순한 추론 경로만 생성되는 현상 발생. 단순 길이 보상이 추론 능력 향상에 효과적이지 않음. 다중 모달 추론에 대한 R1과 같은 추론 능력의 구현은 여전히 어려움이 존재함을 시사.
👍