본 논문은 다중 모달 대규모 언어 모델(MLLM)의 지속적인 지시 조정(continual instruction tuning) 과정을 위한 벤치마크인 MLLM-CTBench를 제시합니다. MLLM-CTBench는 6개의 다양한 도메인에서 7개의 과제를 엄선하여 구성되며, 다차원 평가 지표(최종 답변 정확도와 사고 연쇄(CoT) 추론 품질 평가 결합), 지속적 학습 알고리즘의 종합적 평가(4가지 주요 범주에서 8가지 알고리즘 평가), 강화 미세 조정(RFT)과 감독 미세 조정(SFT)의 효과 비교(연속적인 과제 수행 중 모델 성능 유지를 기준)를 제공합니다. 실험 결과, MLLM의 추론 과정은 최종 출력보다 지속적 학습 중 망각에 더 강하며, 강력한 기본 모델이 망각에 더 강한 저항력을 보입니다. 적절히 규제된 RFT가 SFT보다 과제 간 성능 유지에 더 강력한 접근 방식으로 나타났으며, KL-divergence 정규화의 중요성을 강조합니다.
시사점, 한계점
•
시사점:
◦
MLLM의 지속적 지시 조정을 위한 체계적인 벤치마크인 MLLM-CTBench 제공.
◦
다차원 평가 지표를 통해 MLLM의 지속적 학습 능력을 세밀하게 분석 가능.
◦
다양한 지속적 학습 알고리즘에 대한 종합적 평가 및 알고리즘 설계 및 채택에 대한 실행 가능한 통찰력 제공.
◦
RFT와 SFT의 비교를 통해 RFT, 특히 KL-divergence 정규화가 적용된 RFT가 지속적 학습에서 더욱 효과적임을 밝힘.