본 논문은 혼합 전문가(MoE) 아키텍처 기반의 비전-언어 모델(VLM)에서의 과제 불균형 문제를 해결하기 위해, 진보적인 사전 정렬을 기반으로 하는 새로운 다중 전문가 협업 VLM 아키텍처인 Astrea를 제안합니다. Astrea는 탐지, 분할, 분류, 캡션 생성 등 네 가지 전문 모델을 통합하는 이종 전문가 조정 메커니즘, 전문가 간의 조화를 위한 진보적 사전 정렬과 확률적 활성화 확률적 잔차 연결을 특징으로 하는 동적 지식 융합 전략, 그리고 장기 의존성 모델링과 실시간 전문가 기여 보정을 위한 적응형 가중치 할당기를 활용하는 향상된 최적화 프레임워크를 도입합니다. 12가지 벤치마크 작업에 대한 광범위한 평가 결과, Astrea는 최첨단 모델보다 평균 +4.7%의 성능 향상을 달성하여 기존 모델들을 능가함을 보여줍니다. 본 연구는 진보적 사전 정렬 전략이 VLM이 과제 이질성 한계를 극복할 수 있게 한다는 것을 실증적으로 보여주는 최초의 연구이며, 범용 다중 모달 에이전트 개발을 위한 새로운 방법론적 토대를 마련합니다.
시사점, 한계점
•
시사점:
◦
진보적인 사전 정렬 전략을 통해 VLM의 과제 이질성 문제를 해결할 수 있음을 최초로 실증적으로 증명.
◦
이종 전문가 조정 메커니즘, 동적 지식 융합 전략, 향상된 최적화 프레임워크를 통해 최첨단 성능 달성.