본 논문은 다양한 작업에서 최첨단 성능을 달성한 다중 모달 기반 모델의 최근 발전에 대해 다룹니다. 이러한 발전은 대규모 비표시 다중 모달 데이터를 활용하는 새로운 사전 훈련 패러다임과 큐레이션된 표시된 데이터셋 및 고품질 프롬프트에 대한 지시 미세 조정에 크게 좌우됩니다. 양과 규모 모두에서 점점 더 큰 데이터셋으로 지시 미세 조정을 확장하려는 관심이 높아지고 있지만, 본 연구는 지시 조정 작업의 수를 단순히 늘리는 것이 일관되게 더 나은 성능을 가져오지 않는다는 것을 발견했습니다. 대신, 모달 간의 공통적인 상호 작용(예: 중복된 공유 정보 발견, 고유 정보를 가진 모달 선택 우선순위 지정, 또는 두 모달 모두에서 새로운 정보를 발견하기 위한 시너지 융합 필요)에 따라 작업을 그룹화하면 모델이 그룹 내에서 전이 가능한 기술을 학습하고 일치하지 않는 작업으로 인한 간섭을 억제하는 데 도움이 된다는 것을 관찰했습니다. 이를 위해 본 논문에서는 다중 모달 상호 작용 유형을 기반으로 하는 간단하지만 놀라울 정도로 효과적인 작업 그룹화 전략인 MINT를 제시합니다. 제안된 방법이 다중 모달 지시 조정을 위한 기존 작업 그룹화 기준보다 훨씬 뛰어나며, 일반화와 특수화 사이의 효과적인 균형을 이룬다는 것을 보여줍니다.