Sign In

M2Distill: Multi-Modal Distillation for Lifelong Imitation Learning

Created by
  • Haebom
Category
Empty

저자

Kaushik Roy, Akila Dissanayake, Brendan Tidd, Peyman Moghadam

개요

본 논문은 지속적인 학습 단계에서 발생하는 분포 변화로 인해 어려움을 겪는 조작 작업을 위한 평생 모방 학습에 대해 다룹니다. 기존 방법들은 점점 커지는 기술 라이브러리를 구축하기 위한 비지도 기술 발견이나 여러 정책으로부터의 증류에 초점을 맞추는데, 이는 다양한 조작 작업이 지속적으로 도입됨에 따라 확장성 문제를 야기하고, 학습 과정 전반에 걸쳐 일관된 잠재 공간을 보장하지 못하여 이전에 학습된 기술을 catastrophic forgetting할 수 있습니다. 본 논문에서는 학습 과정 전반에 걸쳐 비전, 언어 및 행동 분포에 걸쳐 일관된 잠재 공간을 유지하는 데 중점을 둔 평생 모방 학습을 위한 다중 모드 증류 기반 방법인 M2Distill을 제시합니다. 이전 단계에서 현재 단계까지의 다양한 모드 간 잠재 표현의 변화를 조절하고, 연속적인 학습 단계 간의 Gaussian Mixture Model (GMM) 정책 간의 불일치를 줄임으로써, 학습된 정책이 이전에 학습된 작업을 수행하는 능력을 유지하면서 새로운 기술을 원활하게 통합할 수 있도록 합니다. LIBERO-OBJECT, LIBERO-GOAL 및 LIBERO-SPATIAL을 포함한 LIBERO 평생 모방 학습 벤치마크 제품군에 대한 광범위한 평가는 본 방법이 모든 평가 지표에서 이전 최첨단 방법을 일관되게 능가함을 보여줍니다.

시사점, 한계점

시사점: 다중 모드 증류를 통해 평생 모방 학습에서 일관된 잠재 공간을 유지하여 catastrophic forgetting 문제를 해결하고 다양한 작업에 대한 확장성을 높였습니다. LIBERO 벤치마크에서 SOTA 성능을 달성했습니다.
한계점: LIBERO 벤치마크에 대한 성능은 우수하지만, 다른 평생 학습 환경이나 더욱 복잡한 조작 작업에 대한 일반화 성능은 추가적인 연구가 필요합니다. GMM 정책에 대한 의존성이 존재하며, 다른 정책 표현 방식에 대한 적용 가능성을 확인해야 합니다.
👍