본 논문은 최첨단 다중 모달 대규모 언어 모델(MLLM)인 LLaVA-1.5와 LLaMA 3.2-Vision의 교과서 질문 답변(TQA) 능력을 CK12-QA 데이터셋을 사용하여 최초로 평가한 연구입니다. 실제 학습 환경을 시뮬레이션하기 위해 관련된 교과서 단락과 그림을 맥락으로 제공하는 다중 모달 검색 증강 생성(RAG) 파이프라인을 도입했습니다. 제로샷 실험 결과, 검색된 맥락이 LLaVA의 텍스트 기반 질문 성능을 향상시키는 반면, LLaMA 3.2-Vision의 그림 기반 질문 정확도를 74.07%에서 25.93%로 크게 저하시키는 "치명적인 맥락 간섭(catastrophic context interference)" 현상을 발견했습니다. 미세 조정 실험에서는 LLaMA 3.2-Vision의 성능이 향상된 반면 LLaVA의 성능은 저하되어, MLLM의 모달 우선 순위 설정 및 맥락 통합의 어려움을 보여줍니다.