Sign In

Offline Safe Reinforcement Learning Using Trajectory Classification

Created by
  • Haebom
Category
Empty

저자

Ze Gong, Akshat Kumar, Pradeep Varakantham

개요

본 논문은 기존 오프라인 안전 강화학습(RL) 방법들의 한계점인 과도한 보수성 또는 안전 제약 위반 문제를 해결하기 위해 새로운 접근법을 제시합니다. 기존 방법들이 각 시간 단계의 비용 제약에 의존하는 것과 달리, 본 논문은 사전 수집된 데이터셋을 바람직한 궤적과 바람직하지 않은 궤적으로 분류하고, 이를 바탕으로 바람직한 궤적을 생성하고 바람직하지 않은 궤적을 회피하는 정책을 학습합니다. (un)desirability 점수는 분류기를 통해 제공되며, 기존 방법들의 min-max 목적 함수의 복잡성과 안정성 문제를 해결합니다. 이론적으로는 기존의 인간 피드백 관련 학습 패러다임과의 강력한 연관성을 보여주며, DSRL 벤치마크를 사용한 실험 결과 경쟁 기법들을 능가하는 성능을 보임을 확인했습니다.

시사점, 한계점

시사점:
기존 오프라인 안전 강화학습의 과도한 보수성 및 안전 제약 위반 문제를 효과적으로 해결하는 새로운 방법 제시.
min-max 목적 함수의 복잡성 및 안정성 문제 해결.
인간 피드백 기반 학습 패러다임과의 연관성 제시.
DSRL 벤치마크에서 경쟁 기법들을 능가하는 우수한 성능 검증.
한계점:
바람직한 궤적과 바람직하지 않은 궤적의 분류 기준 및 정확성에 대한 추가적인 연구 필요.
다양한 환경 및 작업에 대한 일반화 성능 평가 추가 필요.
분류기 학습의 성능이 전체 시스템 성능에 미치는 영향에 대한 분석 필요.
👍