# Model Tensor Planning

### 저자

An T. Le, Khai Nguyen, Minh Nhat Vu, Joao Carvalho, Jan Peters

### 개요

샘플링 기반 모델 예측 제어(MPC)는 비선형 및 접촉이 많은 로봇 작업에서 강력한 성능을 제공하지만, 지역적으로 탐욕적인 샘플링 기법으로 인해 탐색이 부족한 경우가 많습니다. 본 논문에서는 구조화된 텐서 샘플링을 통해 고엔트로피 제어궤적 생성을 도입하는 새로운 샘플링 기반 MPC 프레임워크인 모델 텐서 계획(MTP)을 제안합니다. 무작위 다부분 그래프에서 샘플링하고 B-스플라인 및 Akima 스플라인으로 제어 궤적을 보간함으로써 MTP는 부드럽고 전역적으로 다양한 제어 후보를 보장합니다. 또한 수정된 Cross-Entropy Method(CEM) 업데이트 내에서 지역적 착취 및 전역적 탐험 샘플을 혼합하는 간단한 β-혼합 전략을 제안하여 제어 개선과 탐색의 균형을 맞춥니다. 이론적으로 MTP는 무한한 텐서 깊이와 너비의 한계에서 제어 궤적 공간에서 점근적 경로 적용 범위와 최대 엔트로피를 달성함을 보여줍니다.  JAX를 사용하여 완전히 벡터화된 구현은 MuJoCo XLA와 호환되며, 실시간 제어를 위한 온라인 도메인 무작위화를 위한 Just-in-time(JIT) 컴파일 및 배치 롤아웃을 지원합니다. 능숙한 손 안 조작부터 휴머노이드 보행까지 다양한 어려운 로봇 작업에 대한 실험을 통해 MTP가 작업 성공 및 제어 강건성에서 표준 MPC 및 진화 전략 기준보다 우수함을 보여줍니다. 설계 및 민감도 절제는 MTP 텐서 샘플링 구조, 스플라인 보간 선택 및 혼합 전략의 효과를 확인합니다. 전반적으로 MTP는 모델 기반 계획 및 제어에서 강력한 탐색을 위한 확장 가능한 프레임워크를 제공합니다.

### 시사점, 한계점

- **시사점:**

    - 구조화된 텐서 샘플링을 통해 고엔트로피 제어 궤적 생성을 가능하게 하여 샘플링 기반 MPC의 탐색 능력을 향상시켰습니다.

    - B-스플라인 및 Akima 스플라인 보간을 통해 부드럽고 다양한 제어 후보를 생성합니다.

    - β-혼합 전략을 통해 지역적 착취와 전역적 탐험을 효과적으로 조합합니다.

    - JAX와 MuJoCo XLA를 활용한 효율적인 구현으로 실시간 제어가 가능합니다.

    - 다양한 로봇 작업에서 기존 방법보다 우수한 성능을 보였습니다.

- **한계점:**

    - 무한한 텐서 깊이와 너비에 대한 이론적 분석 결과는 실제 구현에서의 제약을 고려하지 않았을 수 있습니다.  (텐서 크기의 제한)

    - β-혼합 전략의 최적 파라미터 설정은 작업에 따라 달라질 수 있으며, 일반적인 방법이 필요합니다.

    - 복잡한 작업에 대한 확장성에 대한 추가적인 연구가 필요할 수 있습니다.

[PDF 보기](https://arxiv.org/pdf/2505.01059)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).