Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

An Optimistic Algorithm for online CMDPS with Anytime Adversarial Constraints

Created by
  • Haebom

저자

Jiahui Zhu, Kihyun Yu, Dabeen Lee, Xin Liu, Honghao Wei

개요

본 논문은 온라인 안전 강화 학습(RL)에서 제약이 있는 마르코프 의사결정 과정(CMDP)으로 모델링된 안전 제약을 만족하면서 보상을 극대화하는 최적 정책을 학습하는 문제를 다룹니다. 기존 방법들은 확률적 제약 하에서 하위선형 후회를 달성하지만, 제약이 알려지지 않고 시간에 따라 변하며 적대적으로 설계될 수 있는 적대적 환경에서는 실패하는 경우가 많습니다. 본 논문에서는 언제든지 적대적 제약이 있는 온라인 CMDP를 해결하는 최초의 알고리즘인 낙관적 미러 강하 프라이멀-듀얼(OMDPD) 알고리즘을 제안합니다. OMDPD는 Slater 조건이나 엄격하게 알려진 안전 정책의 존재에 의존하지 않고 최적의 후회 O(√K)와 강력한 제약 위반 O(√K)를 달성합니다. 또한 보상과 전이의 정확한 추정치에 대한 접근이 이러한 경계를 더욱 개선할 수 있음을 보여줍니다. 본 연구 결과는 적대적 환경에서 안전한 의사결정을 위한 실용적인 보장을 제공합니다.

시사점, 한계점

시사점:
적대적 제약 하에서도 최적의 후회와 제약 위반 경계를 달성하는 OMDPD 알고리즘 제시.
Slater 조건이나 사전 안전 정책 없이도 안전한 의사결정 보장.
보상 및 전이 추정치의 정확도 향상을 통한 성능 개선 가능성 제시.
자율 주행, 로보틱스, 사이버 보안 등 다양한 분야에 적용 가능성.
한계점:
알고리즘의 실제 환경 적용 및 성능 평가에 대한 추가 연구 필요.
고차원 상태 공간이나 복잡한 제약 조건에 대한 알고리즘의 확장성 검토 필요.
보상 및 전이 추정치의 정확도에 대한 의존성 완화 방안 연구 필요.
👍