본문 바로가기

IT/[딥러닝]6

[자습일지] 강화학습을 이용한 주식투자 전략 출처 : 파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자 - 퀀티랩 강화학습으로 무작정 주식투자를 해보고 돈을 벌면 보상 돈을 잃으면 벌점을 부과하면서 똑똑한 투자 머신을 만들어보자. 세가지 결정이 존재한다. 매수, 매도, 홀딩 각각의 판단에 결과를 보상할 것이다. 무작위적 행동(탐험)을 결정하는 비율 ε(epsilon) 학습은 정체되지 않고 계속 이루어져야한다. 실제 사람이 추적할 수 없을 정도의 수많은 반보고가 방대한 데이터를 사용학 일부 지점에서 무작위 투자를 진행해 학습이 정체되지 않게 한다. 탐험을 결정하는 비율을 ε엡실론, epsilon 이라 표시한다. 강화학습 효과를 차별화하는 요인들 강화학습 모델을 어떻게 구성할 것인가. 1. 학습 데이터 2. 보상 규칙 3. 행동의 종류 4. 신경망 종.. 2020. 8. 27.
[자습일지] 강화학습 주요 기법 출처 : 파이썬과 케라스를 이용한 딥러닝/강화학습 주식투자 - 퀀티랩 지음 등장하는 모든 용어는 이전 글에 설명되어 있다. 이전 글 2020/08/26 - [IT/[딥러닝]] - [자습일지] 강화학습 기초 [자습일지] 강화학습 기초 강화학습은 머신러닝의 한 종류로 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 반복을 통해 스스로 학습하�� coffee-with-me.tistory.com 몬테카를로 학습 몬테카를로 예측과 제어 중 예측에서는 샘플링을 통해 상태 가치 함수를 학습해나간다. 충분한 에피소드를 거치고 나면 상태 가치 함수가 정답에 가까워질 것이다. 샘플링한 상태들에 대한 경험을 통해 획득 보상(Gain)을 다음과 같이.. 2020. 8. 27.
[자습일지] 강화학습 기초 강화학습은 머신러닝의 한 종류로 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 줌으로써 반복을 통해 스스로 학습하게 하는 분야이다. 마르코프 가정 상태가 연속적인 시간에 따라 이어질 때 어떠한 시간점의 상태는 그 시점 바로 이전의 상태에만 영향을 받는다는 가정이다. 좌변, 어떠한 시점 t에서의 상태 S(t)는 최초 상태 S(1)에서 바로 이전 상태 S(t-1)까지의 영향을 받는다는 뜻이다. 이는 현실적이나 실제로 계산하기에는 매우 어렵다. 그래서 우변, 상태 S(t)는 바로 이전 상태인 S(t-1)에 가장 큰 영향을 받고 S(t-1)는 그 이전 상태의 영향을 받기에 연쇄적으로 모든 이전 상태가 반영된다고 가정하는 것이다. 마르코프 과정.. 2020. 8. 26.
[자습일지] 딥러닝 핵심 기술 출처 : 파이썬과 케라스를 이용한 딥러닝 강화학습 주식투자 - 퀀티랩 지음 http://quantylab.com/ 퀀티랩 - Quantylab 코스피 Upward 2329.83 +25.24 +1.10% quantylab.com 오차 역전파 기법 오차 역전파 기법은 인공신경망의 가중치 학습에 사용되는 기법이다. 인공지능에서의 학습이란 곧 가중치를 조율하는 일과 같아서, 가중치 조율을 통한 인공지능의 학습 과정을 간단히 '가중치 학습'이라고 부를 수 있다. 가장 마지막 계층부터 앞쪽 계층으로 순전파(forward)를 편미분한 값인 역전파(backward)를 곱해 나가면서 그 최종 역전파 값을 가중치에 더해서 조정한다. 자세한 과정은 https://wikidocs.net/37406 에서 자세히 배울 수 있었다.. 2020. 8. 25.