Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Diffusion Instruction Tuning

Created by
  • Haebom

저자

Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare

개요

Lavender는 최첨단 이미지 생성 모델(예: Stable Diffusion)을 활용하여 고급 비전-언어 모델(VLMs)의 성능을 향상시키는 간단한 지도 학습 미세 조정(SFT) 방법입니다. 기존의 별도 인코더 조정 대신, VLM 트랜스포머의 텍스트-비전 어텐션을 Stable Diffusion에서 사용하는 것과 동일하게 정렬하여 모델의 시각적 이해력을 풍부하게 하고 다양한 과제(분포 내 및 분포 외)에서 성능을 크게 향상시킵니다. Lavender는 일반적인 대규모 SFT 데이터셋의 2.5%에 해당하는 0.13백만 개의 훈련 예제만 필요하며, 표준 하드웨어(8개의 GPU)에서 하루 만에 미세 조정이 가능합니다. Llama-3.2-11B, MiniCPM-Llama3-v2.5 등 최첨단 오픈소스 다중 모달 LLM의 성능을 최대 30% 향상시키며, 어려운 분포 외 의료 QA 과제에서는 68%의 성능 향상을 달성합니다. 최소한의 감독으로 이미지 생성기의 시각적 전문 지식을 효율적으로 전이함으로써, Lavender는 더욱 정확한 비전-언어 시스템을 위한 확장 가능한 솔루션을 제공합니다. 모든 코드, 훈련 데이터 및 모델은 https://astrazeneca.github.io/vlm/ 에서 공유될 예정입니다.

시사점, 한계점

시사점:
최소한의 데이터(0.13M examples)와 컴퓨팅 자원(8 GPUs, 1 day)으로 고급 VLM의 성능을 크게 향상시킬 수 있음.
이미지 생성 모델의 전문 지식을 효율적으로 VLM에 전이하는 새로운 SFT 방법 제시.
분포 외 과제(예: 의료 QA)에서도 괄목할 만한 성능 향상을 보임.
오픈소스로 공개되어 접근성과 재현성이 높음.
한계점:
Stable Diffusion과 같은 특정 이미지 생성 모델에 의존적일 수 있음. 다른 이미지 생성 모델로의 일반화 가능성에 대한 추가 연구 필요.
사용된 데이터셋의 특성에 따라 성능이 달라질 수 있음. 다양한 데이터셋에 대한 추가 실험 필요.
대규모 SFT 데이터셋에 비해 훈련 데이터가 적기 때문에 성능 향상에 한계가 있을 수 있음.
8개의 GPU를 사용한 실험 결과이므로, 다른 컴퓨팅 환경에서의 성능은 달라질 수 있음.
👍