본 논문은 사람의 행동을 담은 시점 영상을 바탕으로 절차적 텍스트에 명시된 작업을 성공적으로 수행했는지 분류하는 절차적 실수 감지(PMD) 문제를 다룬다. 기존 연구에도 불구하고, 실제 환경에서의 기계 성능은 여전히 미흡하고, 그 이유 또한 불투명하다. 따라서 본 논문은 PMD에 시각적 자기 대화적 추론을 생성하여 의사결정에 활용하는 것을 추가한다. 최근 발전된 비전-언어 모델(VLMs)의 뛰어난 이미지 이해 능력을 활용하여 개별 프레임 기반의 PMD 벤치마크 데이터셋을 제작한다. 이러한 재구성을 통해 투명성을 높이고, 자연어 추론(NLI) 모델을 활용하여 생성된 추론의 일관성을 측정하는 두 가지 자동화된 지표를 제시한다. 본 논문에서는 이렇게 재구성된 과제에 대한 기준선을 설정하고, VLMs가 바로 사용하기에는 어려움을 겪지만, 이러한 지표를 일반적인 추론 및 미세 조정 방법에 통합함으로써 정확도, 일관성 및 효율성을 향상시킬 수 있음을 보여준다(하지만 트레이드오프 없이는 불가능하다). 마지막으로, 다면적인 지표를 통해 일반적인 결과를 시각화하여 향후 개선 방향을 제시한다.