본 논문은 대규모 비전-언어 모델(LVLMs)의 자기 개선을 위한 필수 요소인 추론 비판 및 수정 능력에 대한 체계적인 분석이 부족함을 지적하며, 이를 분석하기 위한 최초의 벤치마크 VISCO를 제안합니다. 기존 연구와 달리 VISCO는 추론 과정의 각 단계에 대한 정밀한 비판과 자연어 설명을 요구합니다. 24개의 LVLMs에 대한 광범위한 평가를 통해, 사람이 작성한 비판이 수정 후 성능을 크게 향상시키는 반면, 모델이 생성한 비판은 도움이 되지 않거나 오히려 성능을 저해하는 경우가 많다는 것을 보여줍니다. 비판 실패의 세 가지 패턴(시각적 인식 비판 실패, "아니오"라고 말하기 꺼림, 오류 전파의 과장된 가정)을 밝히고, 이를 해결하기 위해 초기 추론의 정보를 검증하기 위해 이미지를 다시 확인하는 LookBack 전략을 제안합니다. LookBack은 비판 및 수정 성능을 최대 13.5%까지 향상시킵니다.