본 논문은 다중 모달 트랜스포머 모델이 단일 모달 자극(이미지 또는 무음 비디오)에 참여하는 피험자의 시각적 뇌 활동을 놀라울 정도로 정확하게 예측할 수 있다는 최근 연구 결과를 바탕으로, 다중 모달 자극(영화 시청)에 참여하는 피험자의 뇌 활동을 얼마나 정확하게 예측할 수 있는지 조사합니다. 단일 모달 및 두 가지 유형의 다중 모달 모델(교차 모달 및 공동 사전 학습 모델)을 사용하여 영화 시청 중인 피험자의 fMRI 뇌 활동과 어떤 유형의 모델이 더 관련이 있는지 확인합니다. 실험 결과, 두 가지 유형의 다중 모달 모델 모두 여러 언어 및 시각 영역에서 향상된 정렬을 보였으며, 각 모달의 기여도를 분석하여 교차 모달 모델은 비디오 모달에, 공동 사전 학습 모델은 비디오 및 오디오 모달 모두에 부분적으로 기여함을 밝혔습니다. 이 연구는 단일 모달 대 다중 모달 정보를 처리하는 뇌 영역을 식별하는 데에도 도움이 됩니다.