Sign In

Scientific Reasoning: Assessment of Multimodal Generative LLMs

Created by
  • Haebom
Category
Empty

저자

Florian Dreyer, Ekaterina Kolos, Daria Matiash

개요

본 논문은 여러 다중 모달 대규모 언어 모델(MLLM)들을 ScienceQA 데이터셋을 이용하여 평가한 연구 결과를 제시합니다. 그 결과, Gemini 모델이 적은 맥락 정보만으로도 가장 높은 정확도를 보였으며, 풍부한 맥락 정보를 제공할 경우 인간의 설명과 가장 높은 유사성을 보이는 것으로 나타났습니다. 반면, 소규모 MLLM에 어댑터 튜닝을 적용한 결과는 신뢰할 만한 성능 향상으로 이어지지 않았고, Gemini 모델의 출력 데이터를 이용한 재훈련은 원본 데이터를 이용한 훈련보다 성능이 낮았습니다.

시사점, 한계점

시사점: Gemini 모델이 과학 질문 응답 과제에서 우수한 성능을 보임을 확인하였습니다. 풍부한 맥락 정보가 모델 성능에 긍정적인 영향을 미치는 것을 확인했습니다.
한계점: 소규모 MLLM에 대한 어댑터 튜닝의 효과가 미미했습니다. Gemini 모델의 출력 데이터를 이용한 재훈련이 원본 데이터를 이용한 훈련보다 성능이 낮았습니다. 다양한 MLLM에 대한 제한적인 평가로 일반화 가능성에 대한 추가 연구가 필요합니다.
👍