SCITUNE: Aligning Large Language Models with Human-Curated Scientific Multimodal Instructions

Created by

Haebom

저자

Sameera Horawalavithana, Sai Munikoti, Ian Stewart, Henry Kvinge, Karl Pazdernik

💡 개요

본 논문은 과학 분야에 특화된 멀티모달 지시 사항으로 대규모 언어 모델(LLM)을 학습시키는 "SciTune" 프레임워크를 제안합니다. 이를 위해 비전 인코더와 LLM을 결합한 대규모 멀티모달 모델인 LLaMA-SciTune을 개발하였으며, SciCap, VisText, ScienceQA 벤치마크에서 기존 최신 모델 대비 우수한 성능을 보여주었습니다. 이는 수동으로 생성된 과학 멀티모달 지시 사항이 합성 데이터에 비해 양은 적지만, 과학 분야 LLM 튜닝에 매우 효과적임을 입증합니다.

🔑 시사점 및 한계

•

인간이 직접 생성한 고품질의 과학 멀티모달 지시 사항이 LLM의 과학 분야 이해 및 수행 능력을 크게 향상시킬 수 있습니다.

•

멀티모달 데이터를 활용한 LLM 튜닝은 기존의 텍스트 기반 튜닝보다 과학적 지식 습득 및 추론에 더 효과적입니다.

•

합성 데이터 기반 튜닝 모델에 비해 성능이 뛰어나지만, 수동 데이터 생성의 비용 및 시간 제약으로 인해 데이터셋 규모 확보에 어려움이 있을 수 있습니다.

PDF 보기

Made with Slashpage