DexGraspVLA는 사전 훈련된 Vision-Language 모델을 상위 수준 작업 계획자로, 확산 기반 정책을 하위 수준 액션 제어기로 활용하는 계층적 프레임워크입니다. 다양한 언어 및 시각적 입력을 도메인 불변 표현으로 반복적으로 변환하여 도메인 변화를 완화하고 모방 학습을 효과적으로 적용합니다. 이를 통해 다양한 실제 시나리오에서 강력한 일반화를 가능하게 하며, 수천 개의 미지의 객체, 조명, 배경 조합에서 90% 이상의 성공률을 달성합니다. 실험 분석은 환경 변화에 따른 내부 모델 동작의 일관성을 확인하여 설계의 타당성과 일반화 성능을 입증합니다.