본 논문은 다중 모달 대규모 언어 모델(MLLM)의 조합적 추론 능력 향상을 위한 새로운 방법인 SCRAMBLe(Synthetic Compositional Reasoning Augmentation of MLLMs with Binary preference Learning)을 제시합니다. 기존 MLLM은 "개가 고양이를 쫓는다"와 "고양이가 개를 쫓는다"와 같은 조합을 구분하는 데 어려움을 겪는데, SCRAMBLe은 기존 이미지-캡션 데이터를 활용하여 합성 선호도 데이터를 생성하고, 이를 통해 모델이 올바른 캡션을 선호하도록 학습시킵니다. 실험 결과, SCRAMBLe은 다양한 시각 언어 조합성 벤치마크에서 성능을 크게 향상시켰으며, 일반적인 질문 응답 작업에서도 약간의 향상을 보였습니다. 예를 들어, Molmo-7B 모델의 Winoground 성능을 49.5%에서 54.8%로 향상시켰습니다. 코드, 튜닝된 모델, 그리고 합성 학습 데이터셋은 깃허브에 공개되어 있습니다.