COME-robot은 GPT-4V를 활용하여 열린 환경에서 자율적인 로봇 탐색 및 조작을 위한 폐쇄 루프 시스템입니다. 다중 수준의 개방형 어휘 인식 및 상황 추론 모듈과 반복적인 폐쇄 루프 피드백 및 복구 메커니즘을 통해 3D 환경 탐색, 목표 객체 식별, 작업 실행 성공 모니터링 및 실패 원인 추적 및 복구를 수행합니다. 실제 세계의 8가지 복잡한 모바일 및 테이블탑 조작 작업을 통해 기존 방법보다 약 35% 향상된 작업 성공률을 보였습니다.
시사점, 한계점
•
시사점:
◦
GPT-4V 기반의 폐쇄 루프 로봇 시스템을 통해 열린 환경에서의 로봇 조작 성공률을 크게 향상시켰습니다.
◦
다중 수준의 개방형 어휘 인식 및 상황 추론 모듈을 통해 상식적 지식과 상황 정보를 활용한 효과적인 환경 탐색 및 객체 식별이 가능함을 보여주었습니다.
◦
반복적인 폐쇄 루프 피드백 및 복구 메커니즘을 통해 강력한 실패 복구 능력을 입증했습니다.
◦
자유 형식 지시 사항 수행 및 장기간 작업 계획 수립 능력을 시연했습니다.
•
한계점:
◦
논문에서 구체적인 한계점이나 향후 연구 방향에 대한 언급이 부족합니다.
◦
GPT-4V 모델에 대한 의존도가 높아 모델의 한계가 시스템의 성능에 영향을 미칠 수 있습니다.