Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Active-O3: Empowering Multimodal Large Language Models with Active Perception via GRPO

Created by
  • Haebom

저자

Muzhi Zhu, Hao Zhong, Canyu Zhao, Zongze Du, Zheng Huang, Mingyu Liu, Hao Chen, Cheng Zou, Jingdong Chen, Ming Yang, Chunhua Shen

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)에 능동적 지각(active perception) 능력을 부여하는 방법을 제시합니다. 기존의 GPT-o3 모델의 줌-인 전략이 능동적 지각의 특수한 경우임을 지적하며, 낮은 검색 효율과 부정확한 영역 선택 문제를 해결하기 위해 강화 학습 기반의 ACTIVE-O3 프레임워크를 제안합니다. ACTIVE-O3은 일반적인 오픈 월드 작업(작은 물체 및 밀집 물체 접지)과 원격 감지, 자율 주행, 정밀 상호 작용 분할과 같은 도메인별 시나리오에서 평가를 위한 종합적인 벤치마크를 제공합니다. 또한, V* 벤치마크에서 명시적인 추론 데이터 없이 강력한 제로샷 추론 능력을 보여줍니다. 본 논문은 MLLM에서 능동적 지각에 대한 향후 연구를 촉진하기 위한 간단한 코드베이스와 평가 프로토콜을 제공하고자 합니다.

시사점, 한계점

시사점:
MLLM에 능동적 지각 능력을 부여하는 새로운 프레임워크(ACTIVE-O3) 제시
강화학습 기반으로 낮은 검색 효율 및 부정확한 영역 선택 문제 해결
다양한 작업 및 도메인에서의 성능 평가를 위한 종합적인 벤치마크 제공
제로샷 추론 능력을 보여주는 V* 벤치마크 결과 제시
향후 연구를 위한 간단한 코드베이스와 평가 프로토콜 제공
한계점:
ACTIVE-O3의 일반화 성능에 대한 추가적인 연구 필요
다양한 MLLM 모델에 대한 적용 가능성 및 효율성 분석 필요
벤치마크의 확장성 및 다양성 개선 필요
👍