본 논문은 다양한 로봇과 작업 환경에서 우수한 성능을 발휘하는 범용 정책 아키텍처를 설계하는 문제를 다룹니다. 로봇 동작을 순차적 데이터로 표현하고, 자기회귀 순차 모델링을 통해 동작을 생성하는 방법을 제시합니다. 기존 자기회귀 아키텍처는 언어 모델링에서 단어 토큰으로 엔드 이펙터 경유지를 순차적으로 생성하는 방식으로, 저주파 제어 작업에 제한적입니다. 로봇 동작은 이질적이며 종종 관절 위치, 2D 픽셀 좌표, 엔드 이펙터 자세와 같은 연속적인 값을 포함하기 때문에 언어 기반 모델링에 적합하지 않습니다. 이러한 통찰력을 바탕으로, 본 논문은 청킹 자기회귀 변환기(CCT)를 통해 단일 단계에서 가변적인 수의 토큰을 예측하도록 단일 토큰 예측을 확장하는 간단한 개선을 제시합니다. 이 개선을 통해 다양한 제어 주파수의 다양한 작업에서 강력한 성능, 더 적은 자기회귀 단계를 통한 효율성 향상, 그리고 다양한 유형의 동작을 혼합하고 각 동작 유형에 대해 다른 청크 크기를 사용하는 하이브리드 동작 시퀀스 설계를 가능하게 합니다. CCT를 기반으로, 본 논문은 하이브리드 동작 시퀀스를 생성하여 조작 작업을 해결하는 자기회귀 정책(ARP) 아키텍처를 제안합니다. Push-T, ALOHA, RLBench를 포함한 다양한 로봇 조작 환경에서 ARP를 평가하고, ARP가 범용 아키텍처로서 모든 테스트 벤치마크에서 환경별 최첨단 성능과 동등하거나 우수하며, 계산 및 매개변수 크기 측면에서 더 효율적임을 보여줍니다.