Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

MLLM-CBench:A Comprehensive Benchmark for Continual Instruction Tuning of Multimodal LLMs with Chain-of-Thought Reasoning Analysis

Created by
  • Haebom

저자

Haiyun Guo, ZhiYan Hou, Yu Chen, Jinghan He, Yandu Sun, Yuzhe Zhou, Shujing Guo, Kuan Zhu, Jinqiao Wang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 지속적인 지시 조정(continual instruction tuning) 과정을 위한 벤치마크인 MLLM-CTBench를 제시합니다. MLLM-CTBench는 6개의 다양한 도메인에서 7개의 과제를 엄선하여 구성되며, 다차원 평가 지표(최종 답변 정확도와 사고 연쇄(CoT) 추론 품질 평가 결합), 지속적 학습 알고리즘의 종합적 평가(4가지 주요 범주에서 8가지 알고리즘 평가), 강화 미세 조정(RFT)과 감독 미세 조정(SFT)의 효과 비교(연속적인 과제 수행 중 모델 성능 유지를 기준)를 제공합니다. 실험 결과, MLLM의 추론 과정은 최종 출력보다 지속적 학습 중 망각에 더 강하며, 강력한 기본 모델이 망각에 더 강한 저항력을 보입니다. 적절히 규제된 RFT가 SFT보다 과제 간 성능 유지에 더 강력한 접근 방식으로 나타났으며, KL-divergence 정규화의 중요성을 강조합니다.

시사점, 한계점

시사점:
MLLM의 지속적 지시 조정을 위한 체계적인 벤치마크인 MLLM-CTBench 제공.
다차원 평가 지표를 통해 MLLM의 지속적 학습 능력을 세밀하게 분석 가능.
다양한 지속적 학습 알고리즘에 대한 종합적 평가 및 알고리즘 설계 및 채택에 대한 실행 가능한 통찰력 제공.
RFT와 SFT의 비교를 통해 RFT, 특히 KL-divergence 정규화가 적용된 RFT가 지속적 학습에서 더욱 효과적임을 밝힘.
MLLM의 추론 과정이 최종 출력보다 망각에 더 강하다는 것을 실험적으로 증명.
한계점:
MLLM-CTBench의 과제 범위가 제한적일 수 있음.
평가 지표 및 알고리즘 선택의 주관성 존재 가능성.
실험 환경 및 설정의 일반화 가능성에 대한 추가 연구 필요.
👍