VERGSA (Verifying Embodied Reasoning in Generative Skill Acquisition)는 생성적 기술 습득에서 실시간 검증 원리를 체계적으로 통합하는 프레임워크입니다. 수학적 추론 검증의 성공 사례에서 영감을 얻어, 문맥에 맞는 작업을 프롬프트에 동적으로 통합하고 하위 작업 및 전체 작업에 대한 성공 지표를 정의함으로써 수학적 추론 검증을 구현 학습으로 원활하게 확장합니다. 또한, 장면 구성 및 하위 작업 학습의 기여를 반복적으로 최종화하여 밀집 보상 신호를 합성하는 자동화되고 확장 가능한 보상 라벨링 체계를 구축합니다. 이는 수작업 보상 엔지니어링을 없애는, 검증 기반 생성적 기술 습득을 위한 최초의 종합적인 훈련 데이터셋입니다. 실험 결과, 예시 작업 풀이 평균 작업 성공률을 21% 향상시키고, 검증 모델이 새로운 작업에서는 24%, 기존 작업에서는 36% 성공률을 높이며, 검증 품질에서 LLM-as-a-Judge 기준 모델을 능가함을 보여줍니다.