본 논문은 이미지와 텍스트로 구성된 다중 모달 질의를 허용하고 이미지와 텍스트가 혼합된 다중 모달 문서 집합 내에서 검색할 수 있는 접근 방식을 제시합니다. ReT라고 명명된 이 모델은 질의와 문서 양쪽에서 시각적 및 텍스트적 백본의 여러 계층에서 추출된 다수준 표현을 사용합니다. 다수준 및 교차 모달 이해 및 특징 추출을 위해, ReT는 텍스트 및 시각적 특징을 여러 계층에서 통합하고 LSTM의 고전적인 설계에서 영감을 받은 시그모이드 게이트를 활용하는 새로운 Transformer 기반 순환 셀을 사용합니다. M2KR 및 M-BEIR 벤치마크에 대한 광범위한 실험 결과, ReT는 다양한 설정에서 최첨단 성능을 달성함을 보여줍니다. 소스 코드와 훈련된 모델은 공개적으로 제공됩니다.