~ディープラーニングはデータの質と量が大事と心得~
おこなったこと
株価予想AIの作成を目指して、株価データのダウンロードに勤しみました
(;´Д`)
結果
データ収集について、ある程度の自動化ができるようになり、識別コードが分かれば好きなだけダウンロードできるようにゴニョゴニョ…
学習部分のソースコードについては「コイツ動くぞ!?」ってとこまではなんとか。
学習結果が正しく機能するかどうか…今後検証方法の確立が必要。
んで、今回はデータ収集が主な作業。
課題
・株価データを効率よく取得する
・欠損データの扱い
・学習プロセスのGPU化
過程
環境:前回参照
モチベーション:時系列データをDLする練習を兼ねて金儲け~♪
株価データの収集の検討事項
・無料であること
・期間指定できること
・ダウンロード方法が容易であること
・データに欠損がないこと
・形式が、なんでもいいけど統一されていること
なかなかどうして、ほしい株価データの「質」「量」を「一括」で「容易」に取得する方法がなかなか見つからず。結局ここに多くの時間を割いてしまうことになりました。
結果、ディープラーニングのトライアンドエラーをほとんどできていない。
わかりやすく真っ当な方法であれば、yahooファイナンスでも使いますか?
大量の最新データをブラウザ使って一企業づつ期間指定してダウンロード…
なんて…
そんな…
泥臭いこと…
※IT戦士(仮)は、ひのきの棒だけで冒険に出たりなんてしない
幸いコレについては、うまいやり方を発見/実装できましたw
が。創意工夫が詰まってるので(自賛w)、知りたい人には勉強会でお伝えします♪
あ、ついでにPython使った並列処理についても実装して、データ取得を倍速化してみるスタック追加w
ディープラーニングの手法検討事項
1. (失敗)例題でよく用いられる分類手法(手書き数字の識別するアレ)NNによるアプローチが有効かの検討
相当の時間をかけてトライアンドエラーを繰り返しましたが、なかなかうまく行きませんでした(T_T) ぱっと思いつく方法だと、時間方向の情報が欠落するので、当たり前っちゃ当たり前なんですが、感覚的にはコレはコレでもう少しうまいやり方がありそうな気がしてる。
2.(イマココ)時系列データを機械学習させる方法の検討:LSTM
単純な「分類」とは違う方法を模索した結果として、LSTMなる手法が現在の軸足。コードも動作するところまでできているので、データが集まり次第実証作業に入る。
次回予定
・RNN手法の結果検証
・採用データの検討
・データマイニングの高速化:Pythonによるマルチスレッド処理導入
・RNNコードのGPU対応