最終更新日 2016年04月25日

強化学習の汎用プラットフォーム

①行動
②特徴量の定義
③行動後の特徴量
④初期値
⑤終了条件

例1　　馬力不足の車の登りの学習

谷の途中に家があり、馬力不足の車で谷を登れない場合、前進後進を繰返し下降時の加速度を利用して登ります

試行を繰返す毎に重み(weight)を調整し、真の価値関数に改善して、最適操作を習得します

①行動＜前進　後進　降下＞
②特徴量＜位置P　速度V＞
③行動後の特徴量＜前進：P=P+V　後進：P=P-V　V=C1-sin(P*C2)＞
④初期値＜出発点＞
⑤終了条件＜終点に達する＞

左下から出発し、壁の障害を迂回して、右上から出る学習をします

①行動＜㊧㊨㊤㊦＞
②特徴量＜横座標X　縦座標Y＞
③行動後の特徴量
　　＜㊧：X=X-1　㊨：X=X+1　㊤：Y=Y+1　㊦：Y=Y-1　但し壁を越えられない＞
④初期値＜左下隅＞
⑤終了条件＜右上隅に到着＞