Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D

Created by
  • Haebom

저자

Artemis Panagopoulou, Le Xue, Honglu Zhou, silvio savarese, Ran Xu, Caiming Xiong, Chris Callison-Burch, Mark Yatskar, Juan Carlos Niebles

개요

본 논문은 다양한 모달리티(이미지, 오디오, 비디오, 3D)를 포함하는 질의에 대해 가장 관련성이 높은 정보를 포함하는 모달리티를 선택하는 능력을 평가하기 위해 Contra4 데이터셋을 제시합니다. Contra4는 자연어 질문과 여러 후보 모달리티 인스턴스를 제공하며, 모델은 질문과 의미적으로 일치하는 모달리티를 선택해야 합니다. 인간 주석 캡션과 혼합 모델 라운드 트립 일관성 필터를 사용하여 고품질 감독을 확보하여 17,4000개의 학습 예제와 2,300개의 수동으로 검증된 테스트 세트를 생성했습니다. 최첨단 모델의 성능은 여전히 56%의 전체 정확도와 4모달리티 설정에서 42%의 정확도에 그쳐, 현재 다중 모달 모델의 한계를 보여줍니다.

시사점, 한계점

시사점: 다중 모달리티 정보 처리에서 모달리티 간 대조적 추론 능력의 중요성을 강조하고, 이를 평가하기 위한 새로운 Contra4 데이터셋을 제공합니다. 현재 다중 모달 모델의 한계를 명확히 제시하여 향후 연구 방향을 제시합니다.
한계점: 최첨단 모델의 성능이 여전히 낮아 (전체 56%, 4모달리티 42%), 모달리티 간 대조적 추론 능력 향상을 위한 추가 연구가 필요합니다. Contra4 데이터셋의 크기가 향후 더욱 확장될 필요가 있을 수 있습니다.
👍