Sign In

Filter Images First, Generate Instructions Later: Pre-Instruction Data Selection for Visual Instruction Tuning

Created by
  • Haebom
Category
Empty

저자

Bardia Safaei, Faizan Siddiqui, Jiacong Xu, Vishal M. Patel, Shao-Yuan Lo

개요

본 논문은 대규모 비전-언어 모델(LLVM)의 시각적 지시 조정(VIT)에 필요한 방대한 이미지-지시 쌍 데이터셋 생성 비용을 줄이기 위한 새로운 데이터 선택 방법인 Pre-Instruction Data Selection (PreSel)을 제안합니다. 기존 VIT 데이터 선택 방법들이 고품질 이미지-지시 쌍을 선택하는 데 초점을 맞춘 것과 달리, PreSel은 비표시 이미지 중에서 가장 유용한 이미지를 직접 선택하고, 선택된 이미지에 대해서만 지시를 생성합니다. PreSel은 각 비전 작업의 상대적 중요도를 추정하여 작업별 샘플링 예산을 도출하고, 각 작업 내에서 이미지 특징을 클러스터링하여 예산 내에서 가장 대표적인 이미지를 선택합니다. 이를 통해 VIT 데이터 생성 과정에서의 지시 생성 및 LVLM 미세 조정에 대한 계산 오버헤드를 줄입니다. 실험 결과, 이미지의 15%에 대해서만 지시를 생성하여 LLaVA-1.5 및 Vision-Flan 데이터셋에서 전체 데이터 VIT와 비교할 만한 성능을 달성했습니다.

시사점, 한계점

시사점:
비표시 이미지에서 지시 생성 비용을 크게 줄이는 효율적인 VIT 데이터 선택 방법을 제시합니다.
작업별 샘플링 예산 할당을 통해 다양한 비전 작업에 대한 균형 있는 데이터 선택을 가능하게 합니다.
제한된 자원을 가진 사용자도 맞춤형 VIT 데이터셋을 생성할 수 있도록 지원합니다.
LLaVA-1.5 및 Vision-Flan 데이터셋에서 전체 데이터를 사용한 VIT와 유사한 성능을 15%의 데이터만으로 달성, 효율성을 입증합니다.
한계점:
PreSel의 성능은 이미지 특징 클러스터링 및 작업별 중요도 추정의 정확성에 의존합니다. 클러스터링 알고리즘이나 중요도 추정 방법의 개선이 성능 향상에 영향을 미칠 수 있습니다.
제안된 방법이 모든 유형의 비전-언어 모델이나 데이터셋에 동일하게 적용될 수 있는지에 대한 추가적인 검증이 필요합니다.
현재는 특정 데이터셋에 대해서만 실험 결과가 제시되었으므로, 일반화 가능성에 대한 추가 연구가 필요합니다.
👍