Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Beyond the Known: Decision Making with Counterfactual Reasoning Decision Transformer

Created by
  • Haebom

저자

Minh Hoang Nguyen, Linh Le Pham Van, Thommen George Karimpanal, Sunil Gupta, Hung Le

개요

Decision Transformer (DT)는 다양한 분야에서 인상적인 결과를 달성하기 위해 오프라인 데이터셋을 활용하는 현대 강화학습에서 중요한 역할을 합니다. 하지만 DT는 최적으로 수행되기 위해 고품질의 포괄적인 데이터를 필요로 합니다. 실제 응용 프로그램에서는 훈련 데이터 부족과 최적 행동의 부족으로 인해 오프라인 데이터셋에서의 훈련이 어렵고, 최적이 아닌 데이터는 성능을 저해할 수 있습니다. 이를 해결하기 위해 본 논문에서는 반사실적 추론(counterfactual reasoning)에서 영감을 받은 새로운 프레임워크인 Counterfactual Reasoning Decision Transformer (CRDT)를 제안합니다. CRDT는 반사실적 경험을 생성하고 활용하여 알려진 데이터를 넘어 추론하는 DT의 능력을 향상시켜 보이지 않는 시나리오에서 개선된 의사결정을 가능하게 합니다. 제한된 데이터와 변경된 역학을 포함한 Atari 및 D4RL 벤치마크에 대한 실험은 CRDT가 기존 DT 접근 방식보다 성능이 우수함을 보여줍니다. 또한, 반사실적으로 추론함으로써 DT 에이전트는 아키텍처 수정 없이 최적이 아닌 궤적을 결합하는 스티칭(stitching) 능력을 얻을 수 있습니다. 이러한 결과는 반사실적 추론이 강화학습 에이전트의 성능과 일반화 능력을 향상시킬 가능성을 강조합니다.

시사점, 한계점

시사점:
제한된 데이터 및 비최적 데이터 문제를 해결하는 새로운 강화학습 프레임워크 CRDT 제시
반사실적 추론을 통해 DT의 의사결정 능력 향상 및 미지의 상황에서의 일반화 성능 개선
아키텍처 변경 없이 최적이 아닌 궤적들을 결합하는 스티칭 기능 구현
Atari 및 D4RL 벤치마크에서 기존 DT 대비 성능 향상을 실험적으로 검증
한계점:
CRDT의 성능 향상이 특정 벤치마크에 국한될 가능성
반사실적 경험 생성의 효율성 및 정확성에 대한 추가적인 연구 필요
실제 복잡한 환경에서의 일반화 성능에 대한 추가적인 검증 필요
👍