Generalised Linear Models in Deep Bayesian RL with Learnable Basis Functions

작성자

Haebom

카테고리

Empty

저자

Jingyang You, Hanna Kurniawati

💡 개요

본 논문은 기존 베이지안 강화학습(BRL)이 명시적으로 베이지안 작업 매개변수를 사용하지만, 모델 형태를 사전 가정해야 하는 제약을 해결하기 위해 일반화 선형 모델(GLiBRL)을 제안한다. GLiBRL은 작업 매개변수 및 모델 노이즈에 대한 완벽하게 다루기 쉬운 베이지안 추론과 정확한 주변 우도 평가를 통해 전이 및 보상 모델을 학습한다. 이를 통해 명확한 작업 표현을 학습하고, 온/오프 정책 RL 알고리즘에 통합 가능하며, Meta-RL 벤치마크에서 최첨단 성능을 향상시킨다.

🔑 시사점 및 한계

•

베이지안 강화학습에서 신경망 직접 사용으로 인한 불분명한 작업 표현 문제를 해결하고, 학습 가능한 기저 함수를 활용한 일반화 선형 모델을 도입하여 베이지안 추론을 효율적으로 수행할 수 있다.

•

정확한 베이지안 추론을 통해 작업 표현의 $\mathcal{L}_2$ 거리와 작업 샘플 간의 경험적 커널 기반 대응 관계에 대한 구조적 결과를 최초로 제시한다.

•

MuJoCo 및 MetaWorld 벤치마크에서 기존 및 최신 Meta-RL 방법 대비 최대 1.8배의 성능 향상을 달성하여 실질적인 효용성을 입증한다.

•

제안된 GLiBRL의 복잡성이 커짐에 따라 실제 적용 시 계산 비용이나 확장성에 대한 추가적인 연구가 필요할 수 있다.

PDF 보기

Made with Slashpage