강화학습과 LLM - 1.2 가치 기대 함수

Lighthouse

Dec 6, 20232y ago

벨만 기대 방정식
마르코프 결정 과정 문제를 풀기 위해 상태와 행동의 판단 기준을 만든 식
ex) 시험 하루 전에 도서관에 있는 상태
ex) 시험 하루 전에 도서관에서 잠을 자는 행동의 상태

벨만 최적 방정식

가치 기대 함수

전이 확률과 보상 값이 알려져 있는 경우 아래 방법 수렴 보장.

가치 이터레이션

Max 값 이용 (벨만 최적 방정식)
목표 지점의 보상이 0이고 매 time-step에 마다 -1
감가율 = 1

출처: https://sumniya.tistory.com/10

[Ch.4] Dynamic Programming

이번 포스팅에서 다룰내용은 Dynamic Programming(이하 DP)입니다. 강화학습은 시간에 따라 step별로 action을 취하는 문제를 MDP로 정의하여 푸는 방법 중에 하나인데, DP도 마찬가지 입니다. 차이점은 DP는 model(environment)의 reward, state transition probability)을 알아야하는(Model-based) 방법인데 반해, 강화학습은 model을 몰라도(Model-free) 풀 수 있는 방법입니다. 전자를 Planning이라고 부르며, 후자를 Learning이라고 말합니다. 즉, DP는 Planning의 방법으로써 env.의 model을 안다는 전제 하에 Bellman Eqn.을 푸는 것을 말합니다. 이 DP를 보완한 것이 강화학습입니다. D..

sumniya.tistory.com

가치 이터레이션
V_1
1행 2열 가치 계산 : -1 + max([0,0,0,0]) = -1
즉각적인 보상 -1 에 max(v) 가 모두 0 이었으므로 모두 -1 이 됨.
V_2
1행 2열 가치 계산 : -1 + max([0,-1,-1,-1]) = -1
3행 3열 가치 계산 : -1 + max([-1,-1,-1,-1]) = -2

결과

정책 이터레이션
목표 지점의 보상이 0이고 매 time-step에 마다 -1
감가율 = 1
각 행동 확률은 0.25
가치 기대 함수 이용
K = 0 : 초기화

하지만 현실 대부분의 문제는 모델(전이 확률, 보상)을 알지 못함 → Model Free

2가지 접근 방법
- 가치 함수(V, Q)를 추정하여 학습 한다.
- 정책 자체를 학습한다.

출처: https://link.springer.com/chapter/10.1007/978-981-15-4095-0_3

Subscribe to 'KPMG Lighthouse'

Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'KPMG Lighthouse'!