본 논문은 강화 학습(RL)을 이용한 사후 훈련 전략을 통해 대규모 비전-언어 모델(VLMs)이 추론 능력을 향상시킬 수 있는지 여부를 조사합니다. 다양한 모드 또는 과제에서 능력을 결합하는 VLMs의 능력을 평가하기 위해 체계적인 구성적 탐색 연구를 수행했습니다. 단일 모드 과제 또는 독립적인 추론 기술로 모델을 훈련시키고, 기술 통합이 필요한 다중 모드 구성 변형에서 평가하는 진단 과제들을 설계했습니다. 지도 학습 미세 조정(SFT)과 RL 기반 모델 간 비교를 통해, RL 기반 모델이 구성 일반화에서 SFT 모델보다 우수한 성능을 보이며 학습된 기술을 더 잘 통합한다는 것을 발견했습니다. 또한 VLMs는 개별 과제에서는 우수한 성능을 보이지만, 다중 모드 및 과제 간 상황에서 구성적으로 일반화하는 데 어려움을 겪는다는 점을 확인했습니다. 추론 전에 시각적 내용을 명시적으로 설명하도록 하고(예: 캡션-전-사고), 점진적인 시각-텍스트 접지에 대한 보상을 제공함으로써 성능을 향상시킬 수 있음을 보였습니다. 결론적으로 VLMs의 구성성을 향상시키기 위한 두 가지 중요한 요소는 시각-텍스트 정렬과 정확한 시각적 접지임을 강조합니다. 본 연구는 RL 기반 추론 VLM 훈련의 현재 한계를 밝히고, 다양한 모드와 과제에 걸쳐 구성적으로 추론하는 모델을 구축하기 위한 실행 가능한 통찰력을 제공합니다.