본 논문은 대규모 비전-언어 모델(LVLMs)의 환각 문제를 해결하기 위한 새로운 방법인 자기 성찰적 디코딩(SID)을 제안합니다. 기존의 환각 문제 해결 방법들은 추가적인 지식이나 네트워크를 활용하거나, 입력 데이터를 인위적으로 변형하는 등의 추가 비용이 발생하는 반면, SID는 사전 훈련된 LVLMs의 특징을 활용하여 비전 토큰의 중요도를 자체적으로 평가합니다. 문맥 및 텍스트 인식 토큰 선택(CT2S) 전략을 통해 중요하지 않은 비전 토큰을 제거함으로써 텍스트 기반의 환각을 증폭하고, 원래 토큰 로짓에서 이를 빼서 LVLMs의 충실한 디코딩을 유도합니다. 추가 지식이나 많은 계산 비용 없이 환각을 줄이고 텍스트 품질을 향상시키는 것이 특징입니다.