본 논문은 복잡하고 역동적인 환경에 적응하는 데 어려움을 겪는 기존의 루빅스 큐브 로봇의 한계를 극복하기 위해, 시각-언어 모델(VLM) 기반의 새로운 루빅스 큐브 해결 로봇인 CubeRobot을 제시합니다. CubeRobot은 다중 모드 이해 및 실행 능력을 갖춘 임베디드 에이전트를 구현하며, 다양한 큐브 상태를 포함하는 다단계 작업(총 43개의 하위 작업)으로 구성된 CubeCoT 이미지 데이터셋을 사용하여 훈련되었습니다. 이중 루프 VisionCoT 아키텍처와 Memory Stream을 통해 VLM이 생성한 계획 쿼리에서 작업 관련 특징을 추출하여 독립적인 계획, 의사 결정, 반성 및 고수준 및 저수준 루빅스 큐브 작업의 분리된 관리를 가능하게 합니다. 저수준 작업에서는 100%, 중간 수준 작업에서는 100%, 고수준 작업에서는 80%의 정확도를 달성했습니다.