Sign In

Multi-Objective Planning with Contextual Lexicographic Reward Preferences

Created by
  • Haebom
Category
Empty

저자

Pulkit Rustagi, Yashwanthi Anand, Sandhya Saisubramanian

개요

본 논문은 상황에 따라 선호 순위가 달라지는 다중 목표 하에서 계획을 수립해야 하는 자율 에이전트를 위한 연구를 제시한다. Contextual Lexicographic Markov Decision Process (CLMDP)라는 새로운 프레임워크를 제안하여, 상황에 따라 다른 사전식 목표 순서를 적용하여 계획을 수립할 수 있도록 한다. CLMDP는 각 상황에서 목표 순서와 보상 함수가 결정되며, 전문가 궤적에서 상태-상황 매핑을 추론하기 위해 베이지안 접근 방식을 사용한다. CLMDP를 해결하기 위한 알고리즘은 각 목표 순서에 대한 정책을 계산한 다음, 이를 결합하여 유효하고 사이클이 없는 상황 인식 정책을 생성한다. 제안된 접근 방식의 효과는 시뮬레이션 및 모바일 로봇을 사용하여 평가되었다.

시사점, 한계점

시사점:
상황에 따라 목표 순위가 변하는 환경에서 자율 에이전트 계획 수립을 위한 새로운 프레임워크 제공 (CLMDP).
베이지안 기반의 상황 추론을 통해 전문가 데이터로부터 학습 가능.
다양한 상황 및 목표 순서를 처리할 수 있는 유연성.
시뮬레이션 및 실제 로봇 환경에서 효과 입증.
한계점:
전문가 궤적 데이터에 의존적인 상황 추론.
복잡한 상황 변화를 처리하는 데 한계가 있을 수 있음.
알고리즘의 계산 복잡성 고려 필요.
👍