본 논문은 대규모 비전-언어 모델(LVLMs)의 객체 환각(OH) 문제를 해결하기 위한 새로운 프레임워크인 VaLSe를 제안합니다. VaLSe는 해석 후 완화 전략을 채택하여 복잡한 비전-언어 상호작용 모델링 및 잘못된 활성화 아티팩트 제거라는 두 가지 과제를 해결합니다. 특정 시각 입력이 개별 출력 토큰에 어떻게 영향을 미치는지 추적하는 시각적 기여도 맵을 생성하여 모델의 시각 인식 집중 영역을 파악하고, 잠재 공간 조향을 통해 내부 표현을 의미적으로 관련된 콘텐츠로 재정렬하여 환각된 출력을 줄입니다. 다양한 벤치마크를 통해 VaLSe의 효과를 입증하고, 기존 OH 평가 지표의 한계를 밝히며, 향후 더욱 정교하고 해석 가능하며 시각적으로 근거한 OH 벤치마크의 필요성을 강조합니다.
시사점, 한계점
•
시사점:
◦
VaLSe는 LVLMs의 객체 환각 문제를 해결하는 효과적인 방법을 제시합니다.
◦
시각적 기여도 맵을 통해 모델의 의사결정 과정을 해석하고 이해하는 데 도움을 줍니다.
◦
기존 OH 평가 지표의 한계를 지적하고, 향후 연구 방향을 제시합니다.
•
한계점:
◦
기존 OH 평가 지표의 한계를 지적했지만, 새로운 평가 지표를 제시하지는 않았습니다.
◦
VaLSe의 성능 향상은 특정 벤치마크에 국한될 수 있습니다.
◦
더욱 복잡하고 다양한 시각적 입력에 대한 VaLSe의 일반화 성능이 추가적으로 검증되어야 합니다.