Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration

Created by
  • Haebom
Category
Empty

저자

James Y. Huang, Sheng Zhang, Qianchu Liu, Guanghui Qin, Tinghui Zhu, Tristan Naumann, Muhao Chen, Hoifung Poon

개요

본 논문은 대규모 언어 모델(LLM)을 시각과 같은 새로운 모달리티로 확장하기 위한 효율적인 프레임워크인 BeMyEyes를 제안한다. BeMyEyes는 효율적인 시각 언어 모델(VLM)을 지각자로, 강력한 LLM을 추론자로 사용하여 두 에이전트 간의 협업을 통해 멀티모달 추론을 수행한다. 데이터 합성과 지도 학습 파이프라인을 통해 지각 에이전트가 추론 에이전트와 효과적으로 협업하도록 훈련시킨다. 이 프레임워크는 대규모 멀티모달 모델 학습의 필요성을 줄이고, LLM의 일반화 및 추론 능력을 유지하며, 새로운 도메인 및 모달리티로의 유연한 확장을 가능하게 한다. 실험 결과, BeMyEyes는 텍스트 기반 LLM인 DeepSeek-R1과 Qwen2.5-VL-7B 지각자를 결합하여 GPT-4o와 같은 대규모 VLM을 능가하는 성능을 보였다.

시사점, 한계점

시사점:
효율적인 VLM과 강력한 LLM의 협업을 통해 멀티모달 추론 능력을 향상시킴.
대규모 멀티모달 모델 학습의 필요성을 줄여 효율성을 높임.
LLM의 일반화 및 추론 능력을 유지함.
새로운 도메인 및 모달리티로의 확장이 용이함.
경량화되고 완전 오픈소스 솔루션 제공.
GPT-4o와 같은 대규모 VLM보다 우수한 성능을 달성함.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약에 한계점에 대한 언급이 없음.)
👍