How does longer temporal context enhance multimodal narrative video processing in the brain?

작성자

Haebom

카테고리

Empty

저자

Prachi Jindal, Anant Khandelwal, Manish Gupta, Bapi S. Raju, Subba Reddy Oota, Tanmoy Chakraborty

💡 개요

본 연구는 멀티모달 대규모 언어 모델(MLLM)이 긴 시간적 맥락을 활용할 때 뇌 활동과의 정렬이 향상되는지 조사합니다. 뇌 영상(fMRI)과 모델 특징을 비교한 결과, 클립 길이가 길어질수록 MLLM의 뇌 정렬이 크게 개선되었으나, 단일 모달 비디오 모델은 그렇지 않았습니다. 이는 긴 시간적 맥락 처리가 MLLM의 고차원 통합 영역과 뇌의 유사한 영역 간의 일관성을 높임을 시사합니다.

🔑 시사점 및 한계

•

긴 시간적 맥락은 MLLM이 인간의 서사 이해 과정을 뇌 활동과 더 잘 일치시키도록 돕습니다.

•

MLLM의 계층적 구조는 뇌의 피질 영역 계층 구조와 유사하게 짧은 맥락은 초기 처리 영역과, 긴 맥락은 고차원 통합 영역과 정렬됩니다.

•

서사 과제 프롬프트는 뇌 정렬 패턴에 특정 작업 및 영역 의존적인 영향을 미치며, 고차원 영역의 맥락 의존적인 튜닝 변화를 유발합니다.

PDF 보기

Made with Slashpage