授業の目標と概要 |
この科目では、計算機の知能化を目指す専門的な構成技術の一つとして強化学習について授業を行う。強化学習は、状
態、行動と報酬という簡潔なアルゴリズムにより構成されながら、環境との相互作用により、未知な環境においても最
適な行動を学習できる特徴から、自律エージェントの意思決定システムとして適している。この授業では、強化学習の
基本的なアルゴリズムの理解と応用できることを期待する。
|
履修上の注意
(準備する用具・
前提とする知識等)
|
本授業は確率統計とコンピュータプログラミングを基礎知識とする。理解を深めるため、合計約15回のプログラミング
課題および演習問題を与えられる。
|
到達目標 |
強化学習の原理を理解し、学習アルゴリズムを作成できることを到達目標とする。
|
成績評価方法 |
試験1回による評価を7割、レポートによる評価を3割として合否判定点を算出し、60点合否判定を行う。合否判定点で不
合格となった場合は、全レポートの提出を受験条件とした上で、合格点60点で再試験を行う。レポート評価は個別のレ
ポート課題にて指示された項目を全て満たしていれば100点とするが、不十分な項目がある場合1項目につき-10点と
する。
|
テキスト・参考書 |
教科書: なし(必要資料は配布)
参考書: 高玉圭樹, マルチエージェント学習―相互作用の謎に迫る―. コロナ社, 2003.
参考書: R. S. Sutton and A. G. Barto, 三上貞芳, 皆川雅章訳, 強化学習. 森北出版, 2000.
参考書: 伊藤一之, ロボットインテリジェンス―進化計算と強化学習―. オーム社, 2007.
参考書: 谷口忠大, イラストで学ぶ人工知能概論. 講談社, 2014.
|
メッセージ |
1)課題は必ず理解し、日限までに提出すること。
2)勉強をしても不明な点は教員室まで聞きに来ること。
|
授業の内容 |
授業項目 | 授業項目ごとの達成目標 |
1)ガイダンス、シラバス、強化学習の基礎と構成要素(1回)
2)目標、報酬、収益、価値関数の定義(2回)
3)マルコフ決定過程(2回)
4)強化学習の実装(3回)
|
1)強化学習の基礎と構成要素を理解できる。
2)目標、報酬、収益、価値関数の定義を理解できる。
3)マルコフ決定過程を理解できる。
4)強化学習アルゴリズムをC言語で実装できる。
|
後期中間試験 |
実施しない
|
1)モンテカルロ法(2回)
2)TD法(2回)
3)Q学習アルゴリズム(3回)
|
1)モンテカルロ法を理解し、アルゴリズムを書ける。
2)TD法を理解し、アルゴリズムを書ける。
3)Q学習を理解し、アルゴリズムを書ける。
|
後期期末試験 |
実施する
|