본 논문은 강화학습(Reinforcement Learning, RL) 에 있어 의사결정 에이전트(예: 로봇, 시뮬레이션 에이전트)의 의사결정에서 베이지안 추론의 장점(데이터 효율성, 일반화, 해석 가능성, 안전성)을 종합적으로 검토한다. 베이지안 추론의 불확실성 정량화로 인한 이점을 활용하여 베이지안 방법과 RL의 결합에 초점을 맞춘다. 구체적으로 베이지안 방법(베이즈 정리, 베이지안 학습, 베이지안 공액 모델, 변분 추론, 베이지안 최적화, 베이지안 심층 학습, 베이지안 능동 학습, 베이지안 생성 모델, 베이지안 메타 학습, 평생 베이지안 학습 등), 모델 기반 RL, 모델-자유 RL, 역 RL과의 결합, 잠재적 베이지안 방법과 RL의 최신 결합, 데이터 효율성, 일반화, 해석 가능성, 안전성 측면에서의 방법 비교 분석, 그리고 알려지지 않은 보상, 부분 관측 가능성, 다중 에이전트, 다중 작업, 비선형 비가우스, 계층적 RL 문제 등 6가지 복잡한 RL 문제 변형에 대한 심층 논의와 데이터 수집, 데이터 처리, 정책 학습 단계에서 베이지안 방법의 작동 방식을 요약하여 더 나은 에이전트 의사 결정 전략을 위한 길을 제시한다.