RLTrader 설계모듈 구조디렉터리 구조클래스 다이어그램환경 모듈 개요환경 모듈(environment.py)에는 환경 클래스(Environment)가 있다. 환경 클래스는 에이전트가 투자할 종목의 차트 데이터를 관리한다. 에이전트가 과거로 돌아가서 투자하며 그 결과에 따라 학습하려는 것이 목적이므로 환경 클래스에 전체 차트 데이터가 있지만, 과거 시점부터 가장 최근 시점까지 순차적으로 데이터를 제공한다. 즉, 과거로 돌아간 에이전트가 미래의 차트 데이터는 알 수 없다.에이전트 모듈 개요에이전트 모듈(agent.py)에는 에이전트 클래스(Agent)가 있다. 에이전트 클래스는 주식을 매수하거나 매도하는 투자자 역할을 하며 초기 자본금, 현금 잔고, 주식 잔고라는 상태가 있다. 현금 잔고와 주식 잔고의 평..
원본: https://blog.quantylab.com/stock_rl_differ.html강화학습은 주로 게임용 인공지능에 적용되어 왔으나, 강화학습이 적용될 수 있는 분야는 무궁무진하다. 이번 장에서는 주식투자에 강화학습을 적용하는 방법에 대해서 알아보자.직관적으로 강화학습 전략 알아보기강화학습으로 무작정 주식투자를 해보고 경험을 쌓아 잘한 경우에 긍정적으로 보상하고 잘못한 경우엔 부정적으로 보상함으로써, 일일이 학습 데이터를 만드는 수고를 없애면서도 효과적으로 주식투자 머신러닝을 수행할 수 있는 전략을 알아보자. 강화학습을 이용한 주식투자 구조주식투자도 어떠한 환경에서 매수(buy), 매도(sell), 관망(hold) 등을 판단하는 문제로서 강화학습을 적용할 수 있다. 주식투자에 강화학습을 적용했을..
강화학습(reinforcement learning)은 머신러닝의 한 종류로 에이전트(AI 모델)가 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상(또는 벌칙)을 통해 스스로 학습하게 하는 분야이다.에이전트는 행동을 하고 환경은 행동에 대한 보상을 내린다. 이 보상은 행동 즉시 결정되기보다는 여러 행동을 취한 후에 한꺼번에 결정되는 경우가 많다.강화학습의 기초가 된 마르코프 의사 결정 과정강화학습은 마르코프 의사 결정 과정(Markov decision process, MDP)에 학습의 개념을 넣은 것이라 할 수 있다. 그러므로 MDP를 이해하는 것이 강화학습 시스템 개발에 있어서 가장 중요하고 할 수 있다.마르코프 가정마르코프 가정은 상태가 연속적인 시..