주식 강화학습 예제

2019年8月3日

RL을 완전히 처음 접하는 경우 Deep-Q 학습에 대한 이전 기사를 먼저 읽으면 도움이 될 수 있습니다. 이것은 조금 다르지만 암시적 지식이 있는 상위 수준에서 시작됩니다. 주가를 찾으려면 파이썬의 yahoo_finance 라이브러리를 사용할 수 있습니다. 발생할 수 있는 일반적인 경고는 “HTTPError: HTTP 오류 400: 잘못된 요청”입니다. 하지만 계속 노력하십시오. 시장을 창출하는 마법의 기능을 만들었습니다. 여기에 시장이 어떻게 생겼는지 10 주식 그래서 7 월 14, 2017, 마이크로 소프트의 주가는 72.24에서 72.78로, 이는 약 7.5 % 증가를 의미, 더 높은 갔다. 그러나 이 작고 단 하루만이 중요한 정보를 제공하지는 않습니다. 그러나 적어도 우리는이 특정 주식이나 악기의 현재 상태를 알게되었습니다.

이제 우리는 상인이 낮은 가격에 구입하고 높은 가격에 판매 할 수 있도록 주가를 예측하는 지능형 에이전트를 개발하고자합니다. 그러나 이러한 유형의 예측은 그리 쉽지 않으며 현재 주식 수, 최근 역사적 가격 및 가장 중요한 것은 구매 및 판매를 위해 투자할 사용 가능한 예산과 같은 여러 매개 변수에 의존합니다. 이 상황에서 상태는 현재 예산에 대한 정보를 포함하는 벡터입니다, 주식의 현재 수, 주식의 최근 역사 (마지막 200 주가). 따라서 각 상태는 202차원 벡터입니다. 간단히 하기 위해 주식 시장 에이전트가 수행해야 할 조치는 세 가지뿐입니다: 매수, 매도 및 보유. 당신은 변환 후 이해가되지 않을 몇 가지 부정적인 주식 값이 볼 수 있습니다 (무료보다 더 나은!). 모든 입력 데이터에 일정한 양을 추가하여 양수로 이동하면이 문제가 처리되었습니다. Q 학습에 대한 이전 토론에서 알고리즘은 예상되는 Q-value에 따라 특정 상태의 작업을 결정합니다. 전체 프로세스에 대한 기본 가정은 알고리즘이 모든 주를 상당 시간 동안 방문한 것뿐만 아니라 제한된 수의 상태를 가지고 있다는 것입니다. 사실, Q-러닝은 모든 주가 무한한 횟수를 방문하는 경우에만 결과를 보장할 수 있습니다. 한 번만 주를 방문하고 좋은 보상을 받을 경우 매번 동일한 보상을 기대할 수 있는 것은 아닙니다. 이제 주식 품목을 구매, 판매 또는 보유하기 위해 취할 조치에 따라 의사 결정 정책을 구현해 보겠습니다.

다시 말하지만, 우리는 그것을 증분 방식으로 할 것입니다. 먼저 임의 의사 결정 정책을 만들고 에이전트의 성과를 평가합니다. 불행하게도, 추세를 고려 한 후, 두 주식은 2012-2016 /17 기간 동안 슬라이드를 경험하고 당신이 기억하는 경우, 시장은 오히려 휘발성으로 간주되었다.

カテゴリー:未分類