Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Latent Weight Diffusion: Generating reactive policies instead of trajectories

Created by
  • Haebom

저자

Shashank Hegde, Satyajeet Das, Gautam Salhotra, Gaurav S. Sukhatme

개요

본 논문은 로봇 조작 및 이동에 대한 모방 학습에서 확산 모델을 이용한 대규모 일반화 정책의 한계점을 지적하고, 이를 해결하기 위해 잠재 가중치 확산(Latent Weight Diffusion, LWD) 기법을 제안한다. 기존의 확산 정책(Diffusion Policy, DP)은 궤적을 생성하는데 반해, LWD는 신경망 정책의 가중치를 생성하는 방식으로 폐루프 정책을 학습한다. 이를 통해 더 긴 행동 지평, 환경의 불확실성에 대한 강건성, 그리고 낮은 추론 비용을 달성한다. 실험 결과, LWD는 DP보다 긴 행동 지평과 불확실성 환경에서 더 높은 성공률을 보였으며, 다중 작업 성능은 DP와 유사하면서도 추론 시간 연산량은 1/45 수준으로 줄였다.

시사점, 한계점

시사점:
긴 행동 지평과 환경의 불확실성에 강건한 로봇 제어 정책 학습 가능성 제시
기존 확산 모델 기반 방법보다 훨씬 적은 연산량으로 높은 성능 달성 가능
잠재 가중치 공간에서의 학습을 통한 효율적인 다중 작업 학습 가능성 확인
한계점:
LWD의 성능이 DP와 비교하여 모든 상황에서 우수한 것은 아닐 수 있음 (특정 조건에서의 비교 분석 필요)
제안된 방법의 일반화 성능에 대한 추가적인 실험 및 분석 필요
실제 로봇 시스템에 대한 적용 및 검증이 추가적으로 필요함
👍