強化学習に挫折(6月7日)

今日やったこと

ワーキングメモリーレーニン

勉強

ゲーム開発

100万ステップの学習

これは100万ステップの学習を行なったAIと僕が対戦したものです。(僕視点です)

f:id:alberto_hojo:20190607112440g:plain

敵は適当に動いてボムを投げているだけで、戦意が感じられません。

これを見る限り、そんなに悪くない気がしたのですが...

f:id:alberto_hojo:20190607112858p:plain

強化学習が上手くいかなかった理由

一言で言うと、自由度が多過ぎたからだと思っています。

プレイヤー(agent)の自由度は今、

  • 前後へどのくらい移動するか

  • 左右へどのくらい移動するか

  • 右に回転するか否か

  • 左に回転するか否か

  • ボムを投げるか否か

の5つあり、これらに対する入力を最適化するのが現状難しいので、学習が上手くいかなかったのではないかと推測しております。

そもそも機械学習に初めて触れてから1週間程度しか経っていない状態の僕が、初めて作るモノとしてはハードルが高すぎるということに気づきました。

なのでとりあえず、このアプリの開発はここで中止することにします。

もっとプレイヤー(agent)の自由度が低いゲームで強化学習を試してみようと思います。

今日まで作っていたものはGIthubに公開しておきます。

github.com

今日のパフォーマンス

JINS MEME ESという最新の学術研究の成果を元に人間の心理状態を測定できるウェアラブルバイスを使って本日の僕の集中状態を測定した結果は以下のようになりました。

f:id:alberto_hojo:20190607235532p:plain:w250

作業時間 8h55m

集中時間 3h4m

集中率 34%

反省

  • そもそも作業時間が若干少ない

  • 集中率がやや低い

  • なんとなく行動するのではなく、次にやるべきことを明確化してから行動する