Luyang Jiang, Jianing An, Jie Luo, Wenjun Wu, Lei Huang
개요
본 논문은 이미지 내에 시각적으로 내장된 질문에 답하는 새로운 다중 모드 작업인 Visual-only Question Answering (VoQA)를 제안합니다. 이는 기존의 대규모 비전-언어 모델(LLM)이 세심하게 설계된 프롬프트에도 불구하고 성능 저하를 보이는 어려움을 야기합니다. 이러한 문제를 해결하기 위해 본 논문은 순전히 시각적 입력에 기반하여 단계별 추론을 수행하도록 모델을 안내하는 구조화된 미세 조정 전략인 Guided Response Triggering Supervised Fine-tuning (GRT-SFT)을 제시하며, 이를 통해 모델 성능을 크게 향상시킵니다. 이 연구는 정보(언어 포함)가 시각적으로 인지되는 복잡한 다중 모드 시나리오에서 인간과 유사한 시각적 이해 능력을 향상시킵니다.
시사점, 한계점
•
시사점:
◦
시각적으로 내장된 질문에 대한 답변이 가능한 새로운 다중 모달 작업 VoQA를 제시합니다.