【Python】日経平均をスクレイピングしてAIで分析してみる

こんにちは、しらすです。

Pythonでの機械学習を勉強中です。ですが、結局本とかに載っているデータを持ってきて、書いてあるやり方に沿って進めているだけという状況で、あまり自分で分析しよー！ということができていませんでした。

そんなとき、ネットサーフィンしていたらとても面白そうなものが！！

Pythonで株価データを取得する今回はPythonで日経平均株価を取得していきたいと思います。環境はWin10・Ancondaを使用しています。anaconda?jupyter?という人は以下の記事を参照してください。この2つはpytho

昨今のコロナの影響もあり、株式市場は大打撃を受けているこの頃。AIを使った分析でどうなるのかとても興味があったので（この延長線で予測アプリとか作ればもうかるかも！？←頭いい人がすでに作っているがｗ）最近学んだWebスクレイピングとPythonの機械学習ライブラリ「Scikit-learn」を使って予測モデルを作ってみました！

この記事の内容

前日から株価が上がったかどうかを予測
実際のコード
結果

前日から株価が上がったかどうかを予測

1950年1月1日の日経平均から2020年5月21日までのデータを取得し、過去７日間のデータを基に８日目の株価が前日より上がるか下がるかを学習、評価しました。

実際のコード

import pandas_datareader.data as web
import pandas as pd
import datetime
import numpy as np
import matplotlib.pyplot as plt
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score


#Get Nikkei stock average from web
nikkei = web.DataReader("NIKKEI225", "fred", "1950/1/1")
plt.plot(nikkei)

#Transform to Logarithmic rate of return
nikkei['log_change']=np.log(nikkei['NIKKEI225'])-np.log(nikkei['NIKKEI225'].shift(1))
nikkei2=nikkei['log_change'].values

#Reshape for matrix with 7days data + 8th-day data as one line
term = 7
pricedata = []

length=len(nikkei2)
for i in range(0,length-term-1):
    pricedata.append(nikkei2[i:i+term+1])

df=pd.DataFrame(np.array(pricedata).reshape(-1,8))
df.columns = ['1st_day', '2nd_day', '3rd_day','4th_day', '5th_day', '6th_day','7th_day','8th_day_pred']

#Delete N/A data
df=df.dropna()
df=df.reset_index(drop=True)

#Transfrom to boolian based on the increase/decrease from 1 day before
for i in range(1,len(df)):
    if df['8th_day_pred'][i]>0:
        df['8th_day_pred'][i]=1
    elif df['8th_day_pred'][i]<0:
        df['8th_day_pred'][i]=0

#Separate conditions and answer
x=np.array(df.drop(['8th_day_pred'],axis=1))
y=np.array(df['8th_day_pred'], dtype=np.int16)

#Separate train data and test data
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=0,shuffle=False)

#Set grid search condition
grid_param = [{"n_estimators": [50,100],
               "max_depth"   : [None,5],
              }]

#Set cross validation condition
kfold_cv = KFold(n_splits=5, shuffle=True)

#Set algorizm
clf = GridSearchCV(RandomForestClassifier(), grid_param, cv=kfold_cv)

#Machine learning
clf.fit(x_train, y_train)
print("Best parameter = ", clf.best_estimator_)

#Prediction
y_pred = clf.predict(x_test)

#output
print(classification_report(y_pred, y_test))
print("Accuracy [%] = " , accuracy_score(y_test, y_pred))
print(datetime.datetime.now().strftime('%Y.%m.%d. %H:%M:%S'), "   Analysis have done")