最終更新日 2016年04月25日

強化学習の汎用プラットフォーム




強化学習汎用プラットホームに設定する値

@行動
A特徴量の定義
B行動後の特徴量
C初期値
D終了条件


例1  馬力不足の車の登りの学習


谷の途中に家があり、馬力不足の車で谷を登れない場合、前進後進を繰返し下降時の加速度を利用して登ります

試行を繰返す毎に重み(weight)を調整し、真の価値関数に改善して、最適操作を習得します


汎用プラットホームの設定値

@行動<前進 後進 降下>
A特徴量<位置P 速度V>
B行動後の特徴量<前進:P=P+V 後進:P=P-V V=C1-sin(P*C2)>
C初期値<出発点>
D終了条件<終点に達する>


試行を繰返す毎に学習が行われ、最初は4000回程度かかって成功しますが、最後は100回前後で成功します。



学習後の操作の結果 最初はBackして、自由下降後、2回前進して到達しています




例2  壁の障害を回避する学習


左下から出発し、壁の障害を迂回して、右上から出る学習をします


汎用プラットホームの設定値

@行動<援>
A特徴量<横座標X 縦座標Y>
B行動後の特徴量
  <:X=X-1 堰FX=X+1 :Y=Y+1 :Y=Y-1 但し壁を越えられない>
C初期値<左下隅>
D終了条件<右上隅に到着>


試行を繰返す毎に学習が行われ、最初は6000回程度かかって成功しますが、最後は60回前後で成功します。



学習後の経路の結果



戻る