Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Bridging Writing Manner Gap in Visual Instruction Tuning by Creating LLM-aligned Instructions

Created by
  • Haebom
Category
Empty

저자

Dong Jing, Nanyi Fei, Zhiwu Lu

개요

본 논문은 거대 다중 모달 모델(LMMs)에서 시각적 지시어 튜닝 단계의 지시어 품질이 모달 정렬 성능에 미치는 영향을 평가합니다. 특히, 어휘, 문법, 문장 구조 선택을 통해 특정 의미를 전달하는 '쓰기 방식'이라는 독특한 관점에서 지시어 품질을 평가합니다. LMMs 내 시각적 지시어와 기본 거대 언어 모델(LLMs) 간의 상당한 쓰기 방식 차이가 존재하며, 이 차이로 인해 사전 훈련된 기본 LLMs가 원래 쓰기 스타일에서 벗어나고, 기본 LLMs와 LMMs 모두의 성능 저하를 초래한다고 주장합니다. 이를 해결하기 위해, 기본 LLM을 직접 활용하여 소프트 포맷 시각적 지시어의 쓰기 방식을 기본 LLM 자체의 쓰기 방식과 일치시키는 새로운 LLM 정렬 지시어를 제안합니다. 수동 쓰기 방식 평가 결과, 제안된 방법이 쓰기 방식 차이를 성공적으로 최소화함을 보여줍니다. LLM 정렬 지시어를 사용하여 기준 모델인 LLaVA-7B와 QwenVL은 환각에 대한 저항성이 향상되었고, 15개의 시각 및 언어 벤치마크에서 모두 상당한 성능 향상을 보였습니다.

시사점, 한계점

시사점:
LMMs의 성능 향상을 위해서는 시각적 지시어의 '쓰기 방식'을 고려해야 함을 시사합니다.
기본 LLM을 활용하여 지시어를 정렬하는 새로운 방법을 제시하여 LMMs의 성능 향상 및 환각 감소에 기여합니다.
LLaVA-7B와 QwenVL 모델을 이용한 실험 결과를 통해 제안 방법의 효과를 검증합니다.
한계점:
수동 평가에 의존하는 쓰기 방식 평가의 객관성 한계.
제안된 방법이 모든 유형의 LMMs 및 모든 종류의 시각적 지시어에 대해 동일한 효과를 보이는지 추가 연구 필요.
특정 모델(LLaVA-7B, QwenVL)에 대한 실험 결과만 제시되어 일반화 가능성에 대한 추가 검증 필요.
👍