Learning to Instruct for Visual Instruction Tuning
Created by
Haebom
저자
Zhihan Zhou, Feng Hong, Jiaan Luo, Jiangchao Yao, Dongsheng Li, Bo Han, Ya Zhang, Yanfeng Wang
개요
본 논문은 기존의 Visual Instruction Tuning (VIT)의 한계를 극복하기 위해 LIT (Loss Injected Tuning)을 제안합니다. VIT는 다중 모드 대규모 언어 모델(MLLM)에 다중 모달 기능을 부여하지만, 과적합과 지름길 학습으로 인해 성능이 저하되는 문제점이 있습니다. LIT는 지시 사항과 응답 시퀀스 모두에 손실 함수를 통합하는 간단하면서도 효과적인 방법을 채택하여 이러한 문제를 해결합니다. 추가적인 훈련 데이터 없이도 훈련 데이터를 확장하고, 언어적 사전 지식에 과도하게 의존하는 MLLM을 규제합니다. 결과적으로 다양한 다중 모달 벤치마크에서 최대 9%의 성능 향상을 달성하며, 계산 비용 증가는 미미합니다. 놀랍게도, LIT는 캡션 생성 성능을 최대 18% 향상시키고 MLLM의 환각 현상을 완화하는 등 뛰어난 기본적인 시각적 능력을 보여줍니다.
시사점, 한계점
•
시사점:
◦
기존 VIT의 과적합 및 지름길 학습 문제를 효과적으로 해결하는 새로운 방법 제시
◦
추가 데이터 없이도 성능 향상을 달성, 계산 비용 효율적
◦
캡션 생성 성능 및 환각 문제 개선을 통한 MLLM의 기본적인 시각적 능력 향상
◦
간단하고 효과적인 손실 함수 통합 방식
•
한계점:
◦
논문에서 제시된 LIT의 성능 향상이 특정 벤치마크와 데이터셋에 국한될 가능성
◦
다양한 MLLM 아키텍처 및 다양한 종류의 시각 정보에 대한 일반화 성능에 대한 추가 연구 필요
◦
LIT의 손실 함수 통합 방식이 다른 MLLM 모델에 적용될 때의 일반성에 대한 추가 검증 필요