Sign In

Zoomer: Adaptive Image Focus Optimization for Black-box MLLM

Created by
  • Haebom
Category
Empty

저자

Jiaxu Qian, Chendong Wang, Yifan Yang, Chaoyun Zhang, Huiqiang Jiang, Xufang Luo, Yu Kang, Qingwei Lin, Anlan Zhang, Shiqi Jiang, Ting Cao, Tianjun Mao, Suman Banerjee, Guyue Liu, Saravan Rajmohan, Dongmei Zhang, Yuqing Yang, Qi Zhang, Lili Qiu

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 성능 향상을 위한 새로운 시각적 프롬프팅 메커니즘인 \SysName을 제시합니다. MLLM은 이미지 캡션 생성이나 대화형 질의응답과 같은 작업에서 뛰어난 성능을 보이지만, 정확한 객체 인식 및 세부 시각 정보를 요구하는 작업에서는 어려움을 겪습니다. 토큰 제한으로 인해 중요한 정보가 누락되는 문제도 있습니다. \SysName은 프롬프트 인식 전략, 공간 보존 오케스트레이션 스키마, 예산 인식 프롬프팅 방법의 세 가지 혁신적인 기능을 통해 중요한 시각적 정보를 유지하면서 MLLM의 성능을 향상시킵니다. 여러 데이터셋에 대한 종합적인 평가 결과, \SysName은 기존 방법보다 최대 26.9% 향상된 정확도를 달성하면서 토큰 소모량을 크게 줄였습니다.

시사점, 한계점

시사점:
다중 모달 대규모 언어 모델의 시각적 정보 처리 능력 향상에 기여.
토큰 제한 문제를 효과적으로 해결하는 새로운 프롬프팅 메커니즘 제시.
다양한 시각 언어 작업에서 성능 향상을 보임 (최대 26.9% 정확도 향상).
중요한 시각적 세부 정보를 효율적으로 활용하는 방법 제시.
한계점:
\SysName의 성능 향상이 특정 데이터셋이나 작업에 국한될 가능성 존재.
제안된 방법의 일반화 능력에 대한 추가적인 연구 필요.
다양한 MLLM 모델에 대한 적용 가능성 및 성능 분석이 추가적으로 필요.
👍