본 논문은 로봇 조작 분야에서 안정적인 물체 파지의 어려움을 해결하기 위해, 비전-언어 모델 기반 피드백을 활용하는 플러그 앤 플레이 모듈인 GraspCorrect를 제안합니다. GraspCorrect는 과제 특정 제약 조건을 통합하는 파지-유도 프롬프팅과 물리적으로 실행 가능한 파지 후보를 선택하는 객체-인식 샘플링을 기반으로 반복적인 시각적 질문-응답 프레임워크를 사용합니다. 중간 시각 목표를 생성하고 관절 수준의 행동으로 변환하여, RLBench와 CALVIN 데이터셋에서 기존 정책 모델의 파지 안정성과 과제 성공률을 크게 향상시킵니다.