Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

RoBridge: A Hierarchical Architecture Bridging Cognition and Execution for General Robotic Manipulation

Created by
  • Haebom

저자

Kaidong Zhang, Rongtao Xu, Pengzhen Ren, Junfan Lin, Hefeng Wu, Liang Lin, Xiaodan Liang

개요

본 논문은 다양한 작업을 수행하는 개방형 환경에서 로봇 작동이라는 로봇 공학의 중요한 연구 및 응용 방향에 대해 다룹니다. 자연어 처리 및 대규모 다중 모드 모델의 최근 발전은 로봇의 복잡한 지시 이해 능력을 향상시켰지만, 로봇 조작은 여전히 개방형 환경에서 절차적 기술 딜레마와 선언적 기술 딜레마에 직면하고 있습니다. 기존 방법들은 종종 인지적 및 실행 능력에 대한 타협을 필요로 합니다. 이러한 문제를 해결하기 위해 본 논문에서는 일반적인 로봇 조작을 위한 계층적 지능 아키텍처인 RoBridge를 제안합니다. RoBridge는 대규모 사전 훈련된 비전-언어 모델(VLM)을 기반으로 하는 고수준 인지 계획자(HCP), 기호적 다리 역할을 하는 불변 조작 가능 표현(IOR), 그리고 일반화된 구현 에이전트(GEA)로 구성됩니다. RoBridge는 VLM의 선언적 기술을 유지하고 강화 학습의 절차적 기술을 활용하여 인지와 실행 간의 간극을 효과적으로 연결합니다. RoBridge는 기존 기준 모델보다 상당한 성능 향상을 보여주며, 새로운 작업에서 75%의 성공률과 작업당 5개의 실제 데이터 샘플만을 사용하여 시뮬레이션-실제 일반화에서 평균 83%의 성공률을 달성합니다. 이 연구는 로봇 시스템에서 인지적 추론과 물리적 실행을 통합하는 중요한 단계를 나타내며, 일반적인 로봇 조작을 위한 새로운 패러다임을 제시합니다.

시사점, 한계점

시사점:
대규모 사전 훈련된 비전-언어 모델과 강화 학습을 결합하여 로봇 조작의 인지 및 실행 능력을 향상시키는 새로운 아키텍처 RoBridge를 제시.
새로운 작업과 시뮬레이션-실제 일반화에서 높은 성공률을 달성하여 RoBridge의 효과성을 입증.
인지적 추론과 물리적 실행을 통합하는 새로운 패러다임을 제시하여 일반적인 로봇 조작 분야에 기여.
한계점:
RoBridge의 성능이 특정 데이터셋과 환경에 의존적일 가능성.
실제 세계 적용을 위한 추가적인 테스트와 검증이 필요.
IOR의 일반성 및 다양한 작업에 대한 적응성에 대한 추가적인 연구가 필요.
대규모 사전 훈련된 모델에 대한 의존성으로 인한 계산 비용 및 데이터 요구사항.
👍