Latent Policy Steering with Embodiment-Agnostic Pretrained World Models

Created by

Haebom

저자

Yiqi Wang, Mrinal Verghese, Jeff Schneider

💡 개요

본 연구는 다양한 로봇과 인간의 행동 데이터를 활용하여 시각-운동 정책의 성능을 향상시키는 새로운 방법론인 잠재 정책 조향(Latent Policy Steering, LPS)을 제안한다. 핵심 아이디어는 광학 흐름과 같은 신체적 제약에 덜 민감한 행동 표현을 사용하여 다양한 출처의 데이터를 사전 학습한 월드 모델(World Model)을 구축하고, 이를 목표 신체에 맞게 미세 조정하여 정책 학습을 강화하는 것이다. 이를 통해 데이터 부족 환경에서도 기존 행동 복제(behavior cloning) 방식보다 훨씬 우수한 성능을 달성한다.

🔑 시사점 및 한계

•

시사점 1: 신체적 제약(embodiment)을 넘어선 시각적 유사성을 활용하여 방대한 양의 기존 로봇 및 인간 행동 데이터를 효과적으로 재활용할 수 있다.

•

시사점 2: 광학 흐름과 같은 신체 불가지(embodiment-agnostic) 표현과 월드 모델을 결합함으로써, 데이터 효율성을 극대화하고 저데이터 환경에서도 강력한 시각-운동 정책을 학습할 수 있다.

•

한계점 또는 향후 과제: 사전 학습된 월드 모델이 목표 신체의 동적 특성을 완벽하게 반영하지 못할 경우 성능 저하가 발생할 수 있으며, 실시간 적용을 위한 계산 효율성 개선 및 다양한 복잡한 실제 환경에서의 검증이 필요하다.

PDF 보기

Made with Slashpage