본 논문은 fMRI 데이터를 텍스트로 연결하여 뇌 활동과 언어적 인지 능력을 연결하는 것을 목표로 하는 fMRI-LM이라는 모델을 제시한다. 이 모델은 3단계 프레임워크를 사용하며, fMRI 데이터를 언어 일관적인 공간에 임베딩하는 신경 토크나이저, fMRI 토큰과 텍스트를 함께 모델링하는 사전 훈련된 LLM, 그리고 다양한 다운스트림 애플리케이션을 지원하기 위한 멀티태스크/멀티패러다임 instruction tuning으로 구성된다. 자연 fMRI-텍스트 쌍의 부족을 해결하기 위해, 다양한 이미징 기반 특징을 구조화된 텍스트 설명어로 변환하는 대규모 기술적 코퍼스를 구축했다.