본 논문은 다양한 작업에서 최첨단 성능을 달성한 최근의 다중 모달 기반 모델의 발전에 대해 다룹니다. 이러한 발전은 주로 대규모의 비표시 다중 모달 데이터를 활용하는 새로운 사전 훈련 패러다임과 큐레이션된 표시된 데이터 세트와 고품질 프롬프트에 대한 지시 미세 조정에 의해 주도됩니다. 점점 더 많은 양과 규모의 지시 미세 조정을 더 큰 데이터 세트로 확장하려는 관심이 커지고 있지만, 본 연구는 지시 미세 조정 작업의 수를 단순히 늘리는 것이 일관되게 더 나은 성능을 가져오지 않는다는 것을 밝힙니다. 대신, 모달 간의 공통 상호 작용(예: 중복된 공유 정보 발견, 고유 정보를 가진 모달 선택 우선 순위 지정 또는 두 모달 모두에서 새로운 정보를 발견하기 위한 시너지 융합 필요)에 따라 작업을 그룹화하면 모델이 그룹 내에서 전이 가능한 기술을 학습하고 불일치하는 작업으로 인한 간섭을 억제하도록 유도한다는 것을 관찰했습니다. 이를 위해 본 논문에서는 다중 모달 상호 작용의 유형을 기반으로 하는 간단하지만 놀라울 정도로 효과적인 작업 그룹화 전략인 MINT를 제시합니다. 제안된 방법이 다중 모달 지시 미세 조정에 대한 기존 작업 그룹화 기준보다 훨씬 우수하며, 일반화와 특수화 사이의 효과적인 균형을 이룬다는 것을 보여줍니다.