Task-conditioned probing of instruction-tuned multimodal LLMs: Region-specific brain alignment patterns under naturalistic stimuli

작성자

Haebom

카테고리

Empty

저자

Subba Reddy Oota, Khushbu Pahwa, Prachi Jindal, Satya Sai Srinath Namburi, Maneesh Singh, Tanmoy Chakraborty, Bapi S. Raju, Manish Gupta

💡 개요

본 연구는 지시어에 따라 미세 조정된 멀티모달 대규모 언어 모델(IT-MLLM)이 자연스러운 영화 시청 중 뇌 활동과 얼마나 잘 일치하는지 탐색합니다. 다양한 비디오 및 오디오 IT-MLLM을 사용하여 13가지 비디오 작업 지시어에 따른 뇌 정렬 패턴을 분석한 결과, IT-MLLM이 기존 모델보다 뇌 활동을 더 잘 예측하는 것으로 나타났습니다. 특히, IT-MLLM은 작업별로 구분되는 표현을 생성하며 뇌의 특정 영역과 높은 정렬을 보였습니다.

🔑 시사점 및 한계

•

지시어 미세 조정(Instruction-tuning)이 멀티모달 대규모 언어 모델(MLLM)의 뇌 정렬을 강화시키며, 이는 단순히 표면적 의미를 넘어 기능적 작업 요구에 따라 표현을 구성함을 시사합니다.

•

IT-MLLM은 뇌의 다양한 영역에서 작업별로 고유한 표현을 형성하며, 이는 인간의 뇌와 MLLM 간의 정보 처리 방식을 이해하는 데 중요한 단서를 제공합니다.

•

in-context learning (ICL) 모델은 텍스트 의미와 강한 상관관계를 보인 반면, IT 모델은 지시어 텍스트 의미와의 상관관계가 낮았으며, 이는 작업 조건에 따른 표현 공간의 분리가 뇌 정렬 증가와 관련 있음을 보여줍니다.

•

향후 연구에서는 더 다양한 자연스러운 자극과 작업 지시어를 사용하여 IT-MLLM의 뇌 정렬 메커니즘을 심층적으로 분석하고, 이러한 모델을 활용하여 뇌-컴퓨터 인터페이스 개발 등에 적용할 수 있을 것입니다.

PDF 보기

Made with Slashpage