Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ProxyThinker: Test-Time Guidance through Small Visual Reasoners

Created by
  • Haebom

저자

Zilin Xiao, Jaywon Koo, Siru Ouyang, Jefferson Hernandez, Yu Meng, Vicente Ordonez

개요

본 논문은 강화 학습 기반 검증 가능한 보상을 사용하는 대규모 시각-언어 모델(LVLMs)의 시각적 추론 능력 향상에 중점을 둡니다. 기존의 강화 학습 미세조정(RFT) 방법은 계산 비용이 많이 드는 문제점이 있는데, 본 논문에서는 ProxyThinker라는 추론 단계 기법을 제안합니다. ProxyThinker는 작고 느린 시각적 추론 모델로부터 학습 없이 대규모 모델이 시각적 추론 능력을 상속받도록 합니다. RFT 추론기와 기본 모델의 출력 분포 차이를 이용하여 디코딩 동역학을 수정함으로써, 자기 검증 및 자기 수정과 같은 정교한 동작을 유도합니다. 공간, 수학, 다학제 추론 등 어려운 시각적 벤치마크에서 성능을 향상시키며, 미세조정되지 않은 기본 모델이 RFT 모델과 유사한 성능을 달성하도록 합니다. 또한 병렬 처리 기법을 사용하여 효율적인 구현을 통해 기존 디코딩 시간 방식보다 최대 38배 빠른 추론 속도를 달성합니다.

시사점, 한계점

시사점:
RFT의 높은 계산 비용 문제를 해결하는 효율적인 추론 시간 기법 제시
작은 모델의 추론 능력을 대규모 모델에 효과적으로 전이하는 방법 제시
다양한 시각적 추론 과제에서 성능 향상을 입증
기존 방법보다 훨씬 빠른 추론 속도 달성 (최대 38배)
자기 검증 및 자기 수정과 같은 정교한 동작 유도
한계점:
ProxyThinker는 기본 모델의 성능에 의존적일 수 있음. 기본 모델의 성능이 좋지 않으면 ProxyThinker의 성능도 제한될 수 있음.
제안된 방법의 일반화 성능에 대한 추가적인 연구가 필요함. 다양한 종류의 LVLMs 및 작업에 대한 성능 평가가 필요함.
현재 공개된 코드의 확장성 및 유지보수에 대한 추가적인 검토가 필요함.
👍