Sign In
AI

강화학습과 LLM - 1.2 가치 기대 함수

L
Lighthouse

벨만 기대 방정식
마르코프 결정 과정 문제를 풀기 위해 상태와 행동의 판단 기준을 만든 식
ex) 시험 하루 전에 도서관에 있는 상태
ex) 시험 하루 전에 도서관에서 잠을 자는 행동의 상태
벨만 최적 방정식
가치 기대 함수
전이 확률과 보상 값이 알려져 있는 경우 아래 방법 수렴 보장.
가치 이터레이션
Max 값 이용 (벨만 최적 방정식)
목표 지점의 보상이 0이고 매 time-step에 마다 -1
감가율 = 1
가치 이터레이션
V_1
1행 2열 가치 계산 : -1 + max([0,0,0,0]) = -1
즉각적인 보상 -1 에 max(v) 가 모두 0 이었으므로 모두 -1 이 됨.
V_2
1행 2열 가치 계산 : -1 + max([0,-1,-1,-1]) = -1
3행 3열 가치 계산 : -1 + max([-1,-1,-1,-1]) = -2
결과
정책 이터레이션
목표 지점의 보상이 0이고 매 time-step에 마다 -1
감가율 = 1
각 행동 확률은 0.25
가치 기대 함수 이용
K = 0 : 초기화

하지만 현실 대부분의 문제는 모델(전이 확률, 보상)을 알지 못함 → Model Free
2가지 접근 방법
- 가치 함수(V, Q)를 추정하여 학습 한다.
- 정책 자체를 학습한다.
Kp
Subscribe to 'KPMG Lighthouse'
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'KPMG Lighthouse'!
Subscribe
❤️
1
👍
1
😍
1