Sign In

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval

Created by
  • Haebom
Category
Empty

저자

Davide Caffagni, Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

개요

본 논문은 이미지와 텍스트로 구성된 다중 모달 질의를 허용하고 이미지와 텍스트가 혼합된 다중 모달 문서 집합 내에서 검색할 수 있는 접근 방식을 제시합니다. ReT라고 명명된 이 모델은 질의와 문서 양쪽에서 시각적 및 텍스트적 백본의 여러 계층에서 추출된 다수준 표현을 사용합니다. 다수준 및 교차 모달 이해 및 특징 추출을 위해, ReT는 텍스트 및 시각적 특징을 여러 계층에서 통합하고 LSTM의 고전적인 설계에서 영감을 받은 시그모이드 게이트를 활용하는 새로운 Transformer 기반 순환 셀을 사용합니다. M2KR 및 M-BEIR 벤치마크에 대한 광범위한 실험 결과, ReT는 다양한 설정에서 최첨단 성능을 달성함을 보여줍니다. 소스 코드와 훈련된 모델은 공개적으로 제공됩니다.

시사점, 한계점

시사점:
다중 모달 질의(이미지+텍스트)를 사용한 다중 모달 문서 검색에서 최첨단 성능 달성.
시각 및 텍스트 백본의 다계층 표현을 활용하여 효과적인 교차 모달 이해 및 특징 추출.
새로운 Transformer 기반 순환 셀과 시그모이드 게이트를 통한 효율적인 다중 모달 정보 통합.
소스 코드와 훈련된 모델 공개를 통한 연구 재현성 및 확장성 증대.
한계점:
특정 벤치마크(M2KR, M-BEIR)에 대한 성능 평가만 제시되어 일반화 가능성에 대한 추가적인 검증 필요.
모델의 복잡성 및 계산 비용에 대한 분석 부족.
다양한 유형의 다중 모달 데이터에 대한 적용성 및 일반화 성능에 대한 추가 연구 필요.
👍