Sign In

R1-Zero's "Aha Moment" in Visual Reasoning on a 2B Non-SFT Model

Created by
  • Haebom
Category
Empty

저자

Hengguang Zhou, Xirui Li, Ruochen Wang, Minhao Cheng, Tianyi Zhou, Cho-Jui Hsieh

개요

본 논문은 대규모 언어 모델에서 복잡한 추론 능력의 자율적 발달을 가능하게 하는 강화 학습 기법인 DeepSeek R1을 시각적 추론(multimodal reasoning) 영역으로 확장한 연구 결과를 제시합니다. 기존 연구에서 강화 학습을 통해 단순 규칙 기반 인센티브를 사용하여 언어 모델의 자기 반성 및 응답 길이 증가와 같은 특징을 보이는 "aha moment"를 유도하는 데 성공했으나, 이를 시각적 추론에 적용하는 데 어려움을 겪었습니다. 본 연구는 비-SFT(Supervised Fine-Tuning) 2B 모델인 Qwen2-VL-2B를 사용하여 SAT 데이터셋에 직접 강화 학습을 적용함으로써, 시각적 추론에서도 이러한 특징들을 성공적으로 재현한 첫 사례를 제시합니다. CVBench에서 59.47%의 정확도를 달성하여 기본 모델보다 약 30%, SFT 설정보다 약 2% 향상된 성능을 보였습니다. 또한, 지시 모델(instruct model)을 사용하여 R1과 유사한 추론 능력을 얻으려는 시도와 그 실패 경험, 통찰력을 공유하며, 지시 모델에 강화 학습을 적용하면 단순한 추론 경로가 발생하고, 단순한 길이 보상은 추론 능력을 유도하는 데 효과적이지 않다는 주요 관찰 결과를 제시합니다.

시사점, 한계점

시사점:
비-SFT 모델에서 시각적 추론에 대한 강화 학습의 성공적인 적용 사례 제시.
기존 모델 대비 성능 향상 (CVBench에서 약 30% 향상).
"aha moment" 와 같은 특징적 현상을 시각적 추론에서도 재현.
지시 모델에 강화 학습을 적용할 때 발생하는 문제점 및 해결 방향 제시.
한계점:
지시 모델을 이용한 강화 학습에서의 어려움과 한계 제시는 되어 있으나, 구체적인 해결책 제시는 부족.
실험에 사용된 모델 및 데이터셋의 일반화 가능성에 대한 추가적인 검증 필요.
R1과 유사한 추론 능력을 달성하기 위한 더욱 효과적인 강화 학습 기법에 대한 추가 연구 필요.
👍