벨만방정식1 [자습일지] 강화학습 기초 강화학습은 머신러닝의 한 종류로 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 반복을 통해 스스로 학습하게 하는 분야이다. 마르코프 가정 상태가 연속적인 시간에 따라 이어질 때 어떠한 시간점의 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정이다. 좌변, 어떠한 시점 t에서의 상태 S(t)는 최초 상태 S(1)에서 바로 이전 상태 S(t-1)까지의 영향을 받는다는 뜻이다. 이는 현실적이나 실제로 계산하기에는 매우 어렵다. 그래서 우변, 상태 S(t)는 바로 이전 상태인 S(t-1)에 가장 큰 영향을 받고 S(t-1)는 그 이전 상태의 영향을 받기에 연쇄적으로 모든 이전 상태가 반영된다고 가정하는 것이다. 마르코프 과정.. 2020. 8. 26. 이전 1 다음