본 논문은 대규모 다중 모드 모델(LMMs)에서 컨텍스트 학습(ICL)의 성능을 향상시키는 새로운 방법인 MimIC(Mimic In-Context Learning)을 제안합니다. 기존 ICL은 몇 가지 컨텍스트 데모(ICDs)를 사용하여 새로운 작업을 수행하지만, 다중 모드 데이터의 시너지 효과로 인해 ICDs 구성에 민감하게 반응하는 문제점이 있습니다. MimIC은 Transformer 기반 모델에서 ICDs가 쿼리 토큰의 은닉 상태에 추가되는 "shift vector"로 작용한다는 점에 착안하여, 경량 학습 모듈을 통합하여 안정적이고 일반화 가능한 shift 효과를 학습합니다. 구체적으로, MimIC은 shift 벡터를 어텐션 레이어 뒤에 삽입하고, 각 어텐션 헤드에 shift 벡터를 할당하며, shift 크기를 쿼리에 따라 다르게 하고, 계층별 정렬 손실을 사용하는 네 가지 주요 개선 사항을 통해 기존 방법보다 더 정확하게 shift 효과를 근사합니다. Idefics-9b와 Idefics2-8b-base 두 LMM과 VQAv2, OK-VQA, Captioning 세 가지 다중 모드 작업에 대한 광범위한 실험을 통해 MimIC이 기존 shift 벡터 기반 방법보다 우수한 성능을 보임을 입증합니다.