Sign In

Curating Demonstrations using Online Experience

Created by
  • Haebom
Category
Empty

저자

Annie S. Chen, Alec M. Lessing, Yuejiang Liu, Chelsea Finn

개요

본 논문은 다양한 질적 수준의 이기종 데모 데이터셋을 포함하는 많은 로봇 데모 데이터셋의 문제점을 다룹니다. 이러한 이기종성은 정책 사전 훈련에는 도움이 될 수 있지만, 최종 모방 학습 목표에 사용될 때 로봇 성능을 저해할 수 있습니다. 특히, 데이터 내 일부 전략은 다른 전략보다 신뢰성이 떨어지거나 데이터 내에서 과소표현될 수 있어, 테스트 시 해당 전략이 샘플링될 때 성능이 저하될 수 있습니다. 더욱이, 이러한 신뢰할 수 없거나 과소표현된 전략은 사람이 식별하기 어려울 수 있으며, 데모 데이터셋을 조사하는 것은 시간이 많이 걸리고 비용이 많이 듭니다. 반면, 이러한 데모로 훈련된 정책의 성능은 다양한 전략의 신뢰성을 반영할 수 있습니다. 따라서 본 논문은 온라인 로봇 경험을 기반으로 로봇이 스스로 데이터를 선별하는 Demo-SCORE를 제안합니다. 구체적으로, 성공적인 정책 롤아웃과 실패한 정책 롤아웃을 식별하는 분류기를 훈련하고 교차 검증하여 이기종 데모 데이터셋을 필터링하는 데 사용합니다. 시뮬레이션 및 실제 환경에서의 실험 결과, Demo-SCORE는 수동으로 선별하지 않고도 최적이 아닌 데모를 효과적으로 식별할 수 있음을 보여줍니다. 특히, Demo-SCORE는 모든 원래 데모로 훈련된 기본 정책에 비해 최종 정책의 성공률을 15~35% 이상 높였습니다.

시사점, 한계점

시사점:
이기종 로봇 데모 데이터셋의 문제점을 해결하는 새로운 방법 제시 (Demo-SCORE).
수동 선별 없이도 최적이 아닌 데모를 효과적으로 식별 가능.
기존 정책 대비 성공률을 15~35% 이상 향상.
온라인 로봇 경험 기반의 데이터 선별 가능성 제시.
한계점:
Demo-SCORE의 분류기 성능은 데이터의 질에 의존적일 수 있음.
특정 환경이나 작업에 대한 일반화 성능에 대한 추가 연구 필요.
실제 로봇 적용 시 발생할 수 있는 추가적인 문제점(예: 센서 오류, 환경 변화)에 대한 고려 필요.
👍