Be My Eyes: Extending Large Language Models to New Modalities Through Multi-Agent Collaboration
Created by
Haebom
Category
Empty
저자
James Y. Huang, Sheng Zhang, Qianchu Liu, Guanghui Qin, Tinghui Zhu, Tristan Naumann, Muhao Chen, Hoifung Poon
개요
본 논문은 대규모 언어 모델(LLM)을 시각과 같은 새로운 모달리티로 확장하기 위한 효율적인 프레임워크인 BeMyEyes를 제안한다. BeMyEyes는 효율적인 시각 언어 모델(VLM)을 지각자로, 강력한 LLM을 추론자로 사용하여 두 에이전트 간의 협업을 통해 멀티모달 추론을 수행한다. 데이터 합성과 지도 학습 파이프라인을 통해 지각 에이전트가 추론 에이전트와 효과적으로 협업하도록 훈련시킨다. 이 프레임워크는 대규모 멀티모달 모델 학습의 필요성을 줄이고, LLM의 일반화 및 추론 능력을 유지하며, 새로운 도메인 및 모달리티로의 유연한 확장을 가능하게 한다. 실험 결과, BeMyEyes는 텍스트 기반 LLM인 DeepSeek-R1과 Qwen2.5-VL-7B 지각자를 결합하여 GPT-4o와 같은 대규모 VLM을 능가하는 성능을 보였다.