본 논문은 전문적인 엔지니어링 도구의 요구사항을 충족하지 못하는 기존의 AI 기반 UI 에이전트 데이터셋 및 방법론의 한계를 해결하기 위해, 대규모 합성 데이터셋 VideoCAD를 제시합니다. VideoCAD는 41,000개 이상의 주석이 달린 CAD 작업 비디오 기록으로 구성되어 있으며, 기존 데이터셋보다 최대 20배 더 긴 시간적 범위와 훨씬 높은 복잡성을 제공합니다. 이를 통해 전문적인 정밀 3D CAD 도구의 UI 상호작용 학습과 시각적 질의응답(VQA) 벤치마크를 위한 두 가지 주요 응용 프로그램을 제시합니다. 특히, VideoCAD에서 직접 비디오로부터 CAD 상호작용을 학습하는 최첨단 모델인 VideoCADFormer를 제안하고, 여러 기본 동작 복제 모델보다 우수한 성능을 보임을 보여줍니다. VideoCAD 및 VideoCADFormer는 정밀한 행동 근거, 다중 모드 및 공간 추론, 장기 의존성 등 비디오 기반 UI 이해의 주요 과제를 보여줍니다.