본 논문은 다양한 로봇과 작업 환경에서 우수한 성능을 발휘하는 범용 정책 아키텍처 설계의 어려움을 해결하기 위해, 로봇 동작을 순차 데이터로 표현하고 자기회귀 순차 모델링을 통해 동작을 생성하는 방법을 제시합니다. 기존의 자기회귀 아키텍처는 엔드 이펙터 경로점을 언어 모델링에서 단어 토큰처럼 순차적으로 생성하는데, 이는 저주파수 제어 작업에 제한적입니다. 로봇 동작은 언어와 달리 이질적이며, 관절 위치, 2D 픽셀 좌표, 엔드 이펙터 자세 등 연속적인 값을 포함하는 경우가 많아 언어 기반 모델링에 적합하지 않습니다. 따라서 본 논문에서는 인과 트랜스포머의 단일 토큰 예측을 확장하여 단일 단계에서 가변적인 수의 토큰을 예측하는 청킹 인과 트랜스포머(CCT)를 제안합니다. 이를 통해 다양한 제어 주파수의 다양한 작업에서 견고한 성능을 달성하고, 자기회귀 단계를 줄여 효율성을 높이며, 다양한 유형의 동작을 혼합하고 각 동작 유형에 대해 다른 청크 크기를 사용하는 하이브리드 동작 시퀀스 설계를 가능하게 합니다. CCT를 기반으로 하이브리드 동작 시퀀스를 생성하여 조작 작업을 해결하는 자기회귀 정책(ARP) 아키텍처를 제안합니다. Push-T, ALOHA, RLBench 등 다양한 로봇 조작 환경에서 ARP를 평가한 결과, ARP는 범용 아키텍처로서 모든 테스트 벤치마크에서 환경별 최첨단 성능에 필적하거나 능가하는 동시에 계산 및 매개변수 크기 측면에서 더 효율적임을 보여줍니다. 실제 로봇 시연 비디오, 모든 소스 코드 및 ARP의 사전 훈련된 모델은 http://github.com/mlzxy/arp에서 확인할 수 있습니다.
시사점, 한계점
•
시사점:
◦
다양한 로봇과 작업 환경에서 범용적으로 사용 가능한 로봇 제어 아키텍처를 제시.
◦
기존 언어 모델 기반 접근 방식의 한계를 극복하고, 다양한 유형의 로봇 동작을 효율적으로 처리하는 CCT 및 ARP 아키텍처 제안.