본 논문은 자기회귀 비전-언어 모델(VLMs)에서 기본적인 메커니즘으로 자리 잡은 인과적 어텐션에 대해 다룹니다. 기존의 인과적 마스크 기반 전략은 텍스트 전용 디코딩에 맞춰 설계된 대규모 언어 모델(LLMs)에서 유래되었으며, 비전 토큰에 대한 적용이 prefill 단계에서 충분히 고려되지 않았다는 점을 지적합니다. 비전 쿼리에 대한 미래 위치를 엄격하게 마스킹하는 것은 과도하게 엄격한 제약을 도입하여 정확한 추론을 위한 필수적인 의미론적 단서를 포함하는 미래 컨텍스트를 활용하는 모델의 능력을 저해합니다. 따라서 본 논문에서는 다양한 인과적 마스킹 전략이 비전-언어 추론에 미치는 영향을 실험적으로 조사하고, 이러한 설정에 맞게 조정된 미래 인식 어텐션을 제안합니다. 비전 쿼리에 대한 미래 토큰 미리보기의 효과를 분석하고 엄격한 마스킹이 유용한 문맥적 의미론적 표현을 포착하는 모델의 능력을 저해함을 보여줍니다. 이러한 결과를 바탕으로 미래의 시각적 컨텍스트를 풀링을 통해 과거 표현에 집계하여 자기회귀 구조를 유지하면서 토큰 간 의존성을 향상시키는 경량화된 어텐션을 제안합니다. 다양한 비전-언어 추론 설정에서 다양한 인과적 마스크를 평가하고, 미래 의미론적 컨텍스트를 과거 표현으로 선택적으로 압축하는 것이 추론에 도움이 됨을 보여줍니다.