最終更新日 2016年04月25日
@行動 A特徴量の定義 B行動後の特徴量 C初期値 D終了条件 |
谷の途中に家があり、馬力不足の車で谷を登れない場合、前進後進を繰返し下降時の加速度を利用して登ります 試行を繰返す毎に重み(weight)を調整し、真の価値関数に改善して、最適操作を習得します |
@行動<前進 後進 降下> A特徴量<位置P 速度V> B行動後の特徴量<前進:P=P+V 後進:P=P-V V=C1-sin(P*C2)> C初期値<出発点> D終了条件<終点に達する> |
左下から出発し、壁の障害を迂回して、右上から出る学習をします |
@行動<援> A特徴量<横座標X 縦座標Y> B行動後の特徴量 <:X=X-1 堰FX=X+1 :Y=Y+1 :Y=Y-1 但し壁を越えられない> C初期値<左下隅> D終了条件<右上隅に到着> |