본 논문은 instruction-tuned 다중모달 대규모 언어 모델(MLLM)이 자연 장면 시청 중 뇌 활동과 얼마나 잘 정렬되는지 조사합니다. 실험 결과, MLLM은 비전 전용 모델보다 뇌 활동과 유의미하게 더 잘 정렬되며, instruction-tuning이 되지 않은 다중모달 모델인 CLIP과 비슷한 성능을 보였습니다. 하지만 모든 instruction이 뇌 활동과의 정렬에 효과적인 것은 아니며, 특정 instruction에 따라 MLLM이 이미지와 관련된 instruction-specific 시각적 개념을 인코딩하는 것을 발견했습니다. 특히 수 세기 및 인식 관련 개념에서 뇌 활동과의 강한 정렬을 보였고, 다양한 instruction의 MLLM 임베딩 간에 설명된 분산의 상당 부분이 공유됨을 확인했습니다. 결론적으로, MLLM의 task-specific 정보 캡처 능력을 향상시키면 다양한 instruction 간의 차별화를 개선하고 뇌 반응 예측 정확도를 높일 수 있음을 시사합니다.
시사점, 한계점
•
시사점:
◦
Instruction-tuned MLLM이 뇌 활동과의 정렬에서 비전 전용 모델보다 우수한 성능을 보임을 확인했습니다.
◦
MLLM이 instruction에 따라 instruction-specific 시각적 개념 (수 세기, 인식 등)을 효과적으로 인코딩함을 보였습니다.
◦
MLLM의 task-specific 정보 캡처 능력 향상이 뇌 반응 예측 정확도 향상에 기여할 수 있음을 시사합니다.
◦
다양한 instruction에 대한 뇌 반응 예측의 정확성 향상을 위한 새로운 방향을 제시합니다.
•
한계점:
◦
모든 instruction이 뇌 활동과의 정렬에 효과적인 것은 아닙니다. instruction 선정 및 뇌 활동과의 연관성에 대한 추가 연구가 필요합니다.
◦
MLLM의 task-specific 정보 캡처 능력 향상을 위한 구체적인 방법론 제시는 부족합니다.
◦
실험에 사용된 instruction의 종류와 수가 제한적일 수 있습니다. 더 다양한 instruction에 대한 추가 연구가 필요합니다.