가치 이터레이션 V_1 1행 2열 가치 계산 : -1 + max([0,0,0,0]) = -1 즉각적인 보상 -1 에 max(v) 가 모두 0 이었으므로 모두 -1 이 됨. V_2 1행 2열 가치 계산 : -1 + max([0,-1,-1,-1]) = -1 3행 3열 가치 계산 : -1 + max([-1,-1,-1,-1]) = -2
결과
정책 이터레이션 목표 지점의 보상이 0이고 매 time-step에 마다 -1 감가율 = 1 각 행동 확률은 0.25 가치 기대 함수 이용 K = 0 : 초기화
하지만 현실 대부분의 문제는 모델(전이 확률, 보상)을 알지 못함 → Model Free
2가지 접근 방법 - 가치 함수(V, Q)를 추정하여 학습 한다. - 정책 자체를 학습한다.
Subscribe to my site to be the first to receive notifications and emails about the latest updates, including new posts.
Join Slashpage and subscribe to 'KPMG Lighthouse'!