Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Reward Training Wheels: Adaptive Auxiliary Rewards for Robotics Reinforcement Learning

Created by
  • Haebom
Category
Empty

저자

Linji Wang, Tong Xu, Yuanjie Lu, Xuesu Xiao

개요

로봇 강화학습(RL)은 대규모 실세계 시행착오 데이터 부족을 보완하기 위해 부족한 주요 학습 목표를 보완하는 신중하게 설계된 보조 보상에 의존하는 경우가 많습니다. 이러한 보조 보상은 학습을 가속화하지만 상당한 엔지니어링 노력이 필요하고, 인간의 편향을 도입할 수 있으며, 훈련 중 로봇의 진화하는 기능에 적응할 수 없습니다. 본 논문에서는 로봇 RL에 대한 보조 보상 적응을 자동화하는 교사-학생 프레임워크인 보상 훈련 바퀴(RTW)를 소개합니다. 구체적으로, RTW 교사는 주요 목표를 개선하기 위해 어떤 보조 보상 측면에 더 많은 또는 더 적은 강조가 필요한지 판단하기 위해 학생의 진화하는 기능에 따라 보조 보상 가중치를 동적으로 조정합니다. 본 논문에서는 매우 제한된 공간에서의 탐색 및 수직적으로 까다로운 지형에서의 오프로드 차량 이동성이라는 두 가지 어려운 로봇 작업에 대해 RTW를 시연합니다. 시뮬레이션에서 RTW는 탐색 성공률에서 전문가가 설계한 보상보다 2.35% 향상되었고, 오프로드 이동성 성능을 122.62% 향상시키는 동시에 각각 35% 및 3배 더 빠른 훈련 효율을 달성했습니다. 실제 로봇 실험은 RTW의 효과를 추가로 검증하여 완벽한 성공률(5/5 시도 대 전문가가 설계한 보상의 2/5)을 달성하고 최대 47.4%의 방향 각도 감소로 차량 안정성을 향상시켰습니다.

시사점, 한계점

시사점:
보조 보상의 자동화된 적응을 통해 로봇 강화학습의 효율성과 성능을 향상시킬 수 있음을 보여줌.
전문가가 설계한 보상보다 우수한 성능을 달성함.
시뮬레이션과 실제 로봇 실험 모두에서 효과를 검증함.
훈련 속도 향상.
한계점:
현재 두 가지 작업에 대해서만 실험을 진행하여 일반화 가능성에 대한 추가 연구가 필요함.
RTW 교사의 동적 조정 알고리즘에 대한 자세한 설명이 부족함.
다양한 로봇 시스템과 작업에 대한 적용 가능성에 대한 추가 연구가 필요함.
👍