본 논문은 여러 다중 모달 대규모 언어 모델(MLLM)들을 ScienceQA 데이터셋을 이용하여 평가한 연구 결과를 제시합니다. 그 결과, Gemini 모델이 적은 맥락 정보만으로도 가장 높은 정확도를 보였으며, 풍부한 맥락 정보를 제공할 경우 인간의 설명과 가장 높은 유사성을 보이는 것으로 나타났습니다. 반면, 소규모 MLLM에 어댑터 튜닝을 적용한 결과는 신뢰할 만한 성능 향상으로 이어지지 않았고, Gemini 모델의 출력 데이터를 이용한 재훈련은 원본 데이터를 이용한 훈련보다 성능이 낮았습니다.