Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D
Created by
Haebom
저자
Artemis Panagopoulou, Le Xue, Honglu Zhou, silvio savarese, Ran Xu, Caiming Xiong, Chris Callison-Burch, Mark Yatskar, Juan Carlos Niebles
개요
본 논문은 다양한 모달리티(이미지, 오디오, 비디오, 3D)에 걸쳐 대조적인 추론을 수행하여 자연어 프롬프트에 가장 적합한 모달리티를 선택하는 능력을 평가하기 위해 Contra4 데이터셋을 제시합니다. Contra4는 인간이 주석한 캡션과 모델 간 일관성 필터를 결합하여 174,000개의 학습 예제와 2,300개의 수동 검증 테스트 세트를 제공합니다. 기존 최첨단 모델들이 Contra4에서 56%의 전반적인 정확도와 4모달리티 설정에서 42%의 정확도만 달성하여, 현재 다중 모달리티 모델의 한계를 보여줍니다. 특히 검색 증강 및 의사결정 시간 맥락에서 여러 신호를 평가하고 관련 정보를 전달하는 신호를 식별하는 능력이 중요함을 강조합니다.
시사점, 한계점
•
시사점: 다중 모달리티 모델의 대조적 추론 능력 평가를 위한 새로운 Contra4 데이터셋 제시. 다중 모달리티 정보 처리에서 모달리티 선택의 중요성 강조. 현재 다중 모달리티 모델의 한계를 명확히 제시.
•
한계점: 최첨단 모델의 성능이 여전히 낮음 (전반 56%, 4모달리티 42%). Contra4 데이터셋의 규모가 향후 더 큰 모델과 데이터셋을 필요로 할 수 있음. 특정 작업에 대한 미세 조정이 성능 향상에 크게 기여하지만, 일반화 능력에 대한 추가 연구가 필요함.