본 논문은 대규모 비전-언어 모델(LVLMs)의 핵심 기능으로 부상한 다중 모달 맥락 내 학습(ICL)에 대해 다룬다. 이미지-텍스트 입력의 복잡성과 ICL 성능의 입력 구성에 대한 높은 민감성으로 인해 다중 모달 환경에서 효과적인 ICL은 여전히 어려움을 겪고 있다. 본 연구는 다중 모달 ICL의 핵심 메커니즘을 밝히고, 강력한 맥락 내 데모(ICD) 시퀀스 구성에 있어 작업 매핑을 중요 요소로 확인한다. 이러한 통찰력을 바탕으로, 작업 인식 어텐션을 갖춘 경량이면서 강력한 디코더 전용 트랜스포머인 SabER를 제안한다. SabER는 자동 회귀 방식으로 데모 라이브러리에서 ICD를 지능적으로 선택하고 정렬하여 미세한 특징 추출과 교차 모달 추론을 가능하게 하고, 작업 매핑을 반복적으로 개선하여 고품질 ICD 시퀀스를 생성한다. 5개의 LVLMs와 9개의 벤치마크 데이터셋을 다루는 광범위한 실험을 통해 SabER는 강력한 실험적 성능을 보여줄 뿐만 아니라 작업 의미가 다중 모달 ICD와 어떻게 상호 작용하는지에 대한 더 깊은 이해를 제공한다. 본 연구 결과는 원칙에 기반한 ICD 시퀀스 구성의 중요성을 강조하고 광범위한 실제 시나리오에서 다중 모달 ICL을 향상시키는 새로운 방법을 제시한다.