OpenFlamingo-4B와 같은 대형 멀티모달 모델(LMM)이 제한된 멀티모달 데모를 통해 뛰어난 문맥 내 학습 능력을 보이지만, 이러한 작업 학습을 지원하는 내부 메커니즘은 불분명하다. 이 연구는 시각-언어 모델 OpenFlamingo-4B에서 공간 관계 표현을 전달하는 특정 어텐션 헤드를 확인하고, 이를 '기능 벡터'로 추출 및 조작하여 관계적 작업에 대한 LMM의 성능을 변경할 수 있음을 보여준다. 인과 매개 분석을 통해 관계적 예측에 강하게 영향을 미치는 어텐션 헤드를 식별하고, 제로샷 정확도를 향상시키는 멀티모달 기능 벡터를 추출했다. 또한, LMM 매개변수를 고정한 채로 소량의 훈련 데이터를 사용하여 이러한 기능 벡터를 미세 조정하여 문맥 내 학습 기준선을 능가할 수 있음을 입증했다. 마지막으로, 관계별 기능 벡터를 선형적으로 결합하여 훈련되지 않은 새로운 공간 관계와 관련된 유추 문제를 해결할 수 있음을 보여주며, 이 접근 방식의 강력한 일반화 능력을 강조했다.