BiBo는 방대한 데이터 수집 없이, 범용적인 Vision-Language Models (VLMs, 예: GPT-4)를 활용하여 휴머노이드 에이전트를 제어하는 새로운 방법을 제시합니다. BiBo는 (1) VLM이 환경을 인식하고 사용자 지시를 저수준 명령어로 변환하는 'embodied instruction compiler'와 (2) 명령어를 기반으로 인간과 유사한 동작을 생성하고 환경 피드백에 적응하는 'diffusion-based motion executor'로 구성됩니다. 이를 통해 BiBo는 기본적인 상호 작용뿐만 아니라 다양하고 복잡한 동작을 처리할 수 있습니다. 실험 결과, BiBo는 개방 환경에서 90.2%의 상호 작용 작업 성공률을 달성했으며, 텍스트 기반 동작 실행의 정확성을 이전 방법보다 16.3% 향상시켰습니다.