Sign In

Merge then Realign: Simple and Effective Modality-Incremental Continual Learning for Multimodal LLMs

Created by
  • Haebom
Category
Empty

저자

Dingkun Zhang, Shuhan Qi, Xinyu Xiao, Kehai Chen, Xuan Wang

개요

본 논문은 다중 모달 대규모 언어 모델(MLLM)의 모달 증분 지속 학습(MCL)에서 발생하는 성능 저하 문제를 해결하기 위해 "병합 후 재정렬(MERA)"이라는 새로운 방법을 제안합니다. 기존 MCL은 기존 모달에 대한 성능 저하가 재앙적 망각뿐만 아니라 모달 비의존적 및 모달 특정 구성 요소 간의 불일치에서도 발생한다는 문제점을 가지고 있습니다. MERA는 모델 아키텍처를 변경하거나 과도한 훈련 오버헤드를 추가하지 않고도, 이러한 문제를 해결하여 네 가지 모달까지 확장할 때 99.84%의 후방 상대적 이득을 달성하며, 거의 손실 없는 MCL 성능을 보입니다. 이는 MLLM의 재사용성을 높이고, 추가 모달 확장을 용이하게 합니다.

시사점, 한계점

시사점:
MLLM의 모달 증분 지속 학습(MCL)에서 발생하는 성능 저하 문제에 대한 새로운 해결책 제시
기존 MCL의 한계점인 재앙적 망각과 모달 불일치 문제를 효과적으로 해결
MERA 방법은 간단하고 구현이 용이하며, MLLM 커뮤니티에서 높은 재사용성을 가짐
4개의 모달까지 확장 시에도 거의 손실 없는 MCL 성능 달성 (99.84% 후방 상대적 이득)
한계점:
제시된 방법의 성능이 다양한 MLLM 아키텍처와 데이터셋에 대해 얼마나 일반화될 수 있는지 추가적인 연구 필요
더 많은 모달을 추가할 경우 성능 저하가 발생할 가능성 존재
특정 모달 조합에 대한 성능 평가가 부족할 수 있음.
👍