Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

State-Covering Trajectory Stitching for Diffusion Planners

Created by
  • Haebom

저자

Kyowoon Lee, Jaesik Choi

개요

확산 기반 생성 모델은 특히 오프라인 데이터셋을 사용하는 강화 학습에서 장기 계획을 위한 강력한 도구로 부상하고 있지만, 성능은 훈련 데이터의 질과 다양성에 의해 근본적으로 제한됩니다. 이는 종종 훈련 분포 외부의 작업이나 더 긴 계획 수평선으로의 일반화를 제한합니다. 이러한 문제를 해결하기 위해, 본 논문에서는 짧은 궤적 세그먼트를 점진적으로 연결하여 다양하고 확장된 궤적을 체계적으로 생성하는 새로운 보상 없는 궤적 증강 방법인 State-Covering Trajectory Stitching (SCoTS)를 제안합니다. SCoTS는 먼저 환경의 기본적인 시간 구조를 포착하는 시간 거리 보존 잠재 표현을 학습한 다음, 방향 탐색과 참신성에 따라 반복적으로 궤적 세그먼트를 연결하여 이 잠재 공간을 효과적으로 덮고 확장합니다. 본 논문에서는 SCoTS가 연결과 장기 추론이 필요한 오프라인 목표 조건 벤치마크에서 확산 플래너의 성능과 일반화 능력을 크게 향상시킨다는 것을 보여줍니다. 또한, SCoTS에 의해 생성된 증강된 궤적은 다양한 환경에서 널리 사용되는 오프라인 목표 조건 강화 학습 알고리즘의 성능을 크게 향상시킵니다.

시사점, 한계점

시사점:
SCoTS는 오프라인 강화학습에서 확산 기반 생성 모델의 성능 및 일반화 능력을 향상시키는 효과적인 방법을 제시합니다.
짧은 궤적 세그먼트를 연결하여 다양하고 긴 궤적을 생성함으로써, 제한된 데이터로도 장기 계획이 가능하게 합니다.
다양한 오프라인 목표 조건 강화 학습 알고리즘에 적용 가능하며 성능 향상을 가져옵니다.
시간 거리 보존 잠재 표현 학습을 통해 환경의 시간적 구조를 효과적으로 활용합니다.
한계점:
SCoTS의 성능은 시간 거리 보존 잠재 표현 학습의 질에 의존적일 수 있습니다.
고차원 상태 공간에서의 효율성 및 확장성에 대한 추가적인 연구가 필요할 수 있습니다.
특정 환경이나 작업에 대한 최적의 매개변수 설정이 필요할 수 있으며, 이는 추가적인 실험을 통해 확인되어야 합니다.
제안된 방법이 모든 유형의 오프라인 강화학습 문제에 적용 가능한지에 대한 추가적인 검증이 필요합니다.
👍