본 논문은 다양한 작업을 수행하는 개방형 환경에서 로봇 작동이라는 로봇 공학의 중요한 연구 및 응용 방향에 대해 다룹니다. 자연어 처리 및 대규모 다중 모드 모델의 최근 발전은 로봇의 복잡한 지시 이해 능력을 향상시켰지만, 로봇 조작은 여전히 개방형 환경에서 절차적 기술 딜레마와 선언적 기술 딜레마에 직면하고 있습니다. 기존 방법들은 종종 인지적 및 실행 능력에 대한 타협을 필요로 합니다. 이러한 문제를 해결하기 위해 본 논문에서는 일반적인 로봇 조작을 위한 계층적 지능 아키텍처인 RoBridge를 제안합니다. RoBridge는 대규모 사전 훈련된 비전-언어 모델(VLM)을 기반으로 하는 고수준 인지 계획자(HCP), 기호적 다리 역할을 하는 불변 조작 가능 표현(IOR), 그리고 일반화된 구현 에이전트(GEA)로 구성됩니다. RoBridge는 VLM의 선언적 기술을 유지하고 강화 학습의 절차적 기술을 활용하여 인지와 실행 간의 간극을 효과적으로 연결합니다. RoBridge는 기존 기준 모델보다 상당한 성능 향상을 보여주며, 새로운 작업에서 75%의 성공률과 작업당 5개의 실제 데이터 샘플만을 사용하여 시뮬레이션-실제 일반화에서 평균 83%의 성공률을 달성합니다. 이 연구는 로봇 시스템에서 인지적 추론과 물리적 실행을 통합하는 중요한 단계를 나타내며, 일반적인 로봇 조작을 위한 새로운 패러다임을 제시합니다.