Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Learning to Instruct for Visual Instruction Tuning

Created by
  • Haebom

저자

Zhihan Zhou, Feng Hong, Jiaan Luo, Jiangchao Yao, Dongsheng Li, Bo Han, Ya Zhang, Yanfeng Wang

개요

본 논문은 기존의 Visual Instruction Tuning (VIT)의 한계를 극복하기 위해 LIT (Loss Injected Tuning)을 제안합니다. VIT는 다중 모드 대규모 언어 모델(MLLM)에 다중 모달 기능을 부여하지만, 과적합과 지름길 학습으로 인해 성능이 저하되는 문제점이 있습니다. LIT는 지시 사항과 응답 시퀀스 모두에 손실 함수를 통합하는 간단하면서도 효과적인 방법을 채택하여 이러한 문제를 해결합니다. 추가적인 훈련 데이터 없이도 훈련 데이터를 확장하고, 언어적 사전 지식에 과도하게 의존하는 MLLM을 규제합니다. 결과적으로 다양한 다중 모달 벤치마크에서 최대 9%의 성능 향상을 달성하며, 계산 비용 증가는 미미합니다. 놀랍게도, LIT는 캡션 생성 성능을 최대 18% 향상시키고 MLLM의 환각 현상을 완화하는 등 뛰어난 기본적인 시각적 능력을 보여줍니다.

시사점, 한계점

시사점:
기존 VIT의 과적합 및 지름길 학습 문제를 효과적으로 해결하는 새로운 방법 제시
추가 데이터 없이도 성능 향상을 달성, 계산 비용 효율적
캡션 생성 성능 및 환각 문제 개선을 통한 MLLM의 기본적인 시각적 능력 향상
간단하고 효과적인 손실 함수 통합 방식
한계점:
논문에서 제시된 LIT의 성능 향상이 특정 벤치마크와 데이터셋에 국한될 가능성
다양한 MLLM 아키텍처 및 다양한 종류의 시각 정보에 대한 일반화 성능에 대한 추가 연구 필요
LIT의 손실 함수 통합 방식이 다른 MLLM 모델에 적용될 때의 일반성에 대한 추가 검증 필요
👍