Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Multimodal Function Vectors for Spatial Relations

Created by
  • Haebom

저자

Shuhao Fu, Esther Goldberg, Ying Nian Wu, Hongjing Lu

개요

OpenFlamingo-4B와 같은 대형 멀티모달 모델(LMM)이 제한된 멀티모달 데모를 통해 뛰어난 문맥 내 학습 능력을 보이지만, 이러한 작업 학습을 지원하는 내부 메커니즘은 불분명하다. 이 연구는 시각-언어 모델 OpenFlamingo-4B에서 공간 관계 표현을 전달하는 특정 어텐션 헤드를 확인하고, 이를 '기능 벡터'로 추출 및 조작하여 관계적 작업에 대한 LMM의 성능을 변경할 수 있음을 보여준다. 인과 매개 분석을 통해 관계적 예측에 강하게 영향을 미치는 어텐션 헤드를 식별하고, 제로샷 정확도를 향상시키는 멀티모달 기능 벡터를 추출했다. 또한, LMM 매개변수를 고정한 채로 소량의 훈련 데이터를 사용하여 이러한 기능 벡터를 미세 조정하여 문맥 내 학습 기준선을 능가할 수 있음을 입증했다. 마지막으로, 관계별 기능 벡터를 선형적으로 결합하여 훈련되지 않은 새로운 공간 관계와 관련된 유추 문제를 해결할 수 있음을 보여주며, 이 접근 방식의 강력한 일반화 능력을 강조했다.

시사점, 한계점

LMM 내에서 공간 관계 지식이 국소화된 내부 구조 내에 인코딩되어 있음을 보여준다.
이러한 구조를 체계적으로 추출하고 최적화하여 모델의 모듈성을 이해하고 LMM에서 관계적 추론에 대한 제어를 향상시킬 수 있다.
멀티모달 기능 벡터를 미세 조정하여 문맥 내 학습보다 뛰어난 성능을 달성할 수 있다.
새로운 공간 관계에 대한 유추 문제를 해결하기 위해 관계별 기능 벡터를 선형적으로 결합할 수 있다.
논문의 한계점은 명시적으로 언급되지 않음.
👍