Chen Jin, Ryutaro Tanno, Amrutha Saseendran, Tom Diethe, Philip Teare
개요
Lavender는 최첨단 이미지 생성 모델(예: Stable Diffusion)을 활용하여 고급 비전-언어 모델(VLMs)의 성능을 향상시키는 간단한 지도 학습 미세 조정(SFT) 방법입니다. 기존의 별도 인코더 조정 대신, VLM 트랜스포머의 텍스트-비전 어텐션을 Stable Diffusion에서 사용하는 것과 동일하게 정렬하여 모델의 시각적 이해력을 풍부하게 하고 다양한 과제(분포 내 및 분포 외)에서 성능을 크게 향상시킵니다. Lavender는 일반적인 대규모 SFT 데이터셋의 2.5%에 해당하는 0.13백만 개의 훈련 예제만 필요하며, 표준 하드웨어(8개의 GPU)에서 하루 만에 미세 조정이 가능합니다. Llama-3.2-11B, MiniCPM-Llama3-v2.5 등 최첨단 오픈소스 다중 모달 LLM의 성능을 최대 30% 향상시키며, 어려운 분포 외 의료 QA 과제에서는 68%의 성능 향상을 달성합니다. 최소한의 감독으로 이미지 생성기의 시각적 전문 지식을 효율적으로 전이함으로써, Lavender는 더욱 정확한 비전-언어 시스템을 위한 확장 가능한 솔루션을 제공합니다. 모든 코드, 훈련 데이터 및 모델은 https://astrazeneca.github.io/vlm/ 에서 공유될 예정입니다.