본 논문은 대형 비전-언어 모델(LVLM)의 자기 향상 과정에서 발생하는 "마태 효과" 문제점을 지적하고, 이를 해결하기 위한 두 가지 관점(분포 재형성 및 궤적 재샘플링)에서 4가지 전략을 제안합니다. 이로써 모델이 단순한 쿼리(head data)에 치우쳐 복잡한 쿼리(tail data)를 처리하는 능력이 저해되는 불균형을 해결하여 시각적 추론 능력을 향상시키는 것을 목표로 합니다. Qwen2-VL-7B-Instruct 및 InternVL2.5-4B 모델을 대상으로 한 실험에서 제안된 방법론이 기존 자기 향상 방식보다 평균 3.86점 높은 성능을 보였습니다.
시사점, 한계점
•
시사점:
◦
LVLM의 자기 향상 과정에서 발생하는 "마태 효과" 문제점을 최초로 지적하고, 이를 해결하기 위한 효과적인 전략을 제시했습니다.
◦
분포 재형성 및 궤적 재샘플링을 통해 head-tail 데이터의 불균형을 해결하여 모델의 전반적인 성능을 향상시켰습니다.
◦
Qwen2-VL-7B-Instruct 및 InternVL2.5-4B 모델에 대한 실험을 통해 방법론의 효과를 입증했습니다.