授業の目標と概要 |
この科目では、計算機の知能化を目指す専門的な構成技術の一つとして強化学習とその基礎的な学
問として最適化分野においてよく使われる動的計画法について授業を行う。強化学習は、状態、行
動と報酬という簡潔なアルゴリズムにより構成されながら、環境との相互作用により、未知な環境
においても最適な行動を学習できる特徴から、自律エージェントの意思決定システムとして適して
いる。この授業では、動的計画法と強化学習の基本的なアルゴリズムの理解と応用できることを期
待する。
|
履修上の注意
(準備する用具・
前提とする知識等)
|
本授業は確率統計とコンピュータプログラミングを基礎知識とする。理解を深めるため、合計約6
回の演習レポートを宿題として与えられる。
|
到達目標 |
強化学習の原理を理解し、学習アルゴリズムを作成できることを到達目標とする。
|
成績評価方法 |
最終成績=定期試験100 点±レポート10 点
1)定期試験60 点未満ではレポートを最終成績に加減算せず不合格点とする。
2)定期試験60 点以上ではレポートによる加減算は60 点以上100 点以下とする。
3)レポート100 点の場合、最終成績+10 点で加点し、0 点の場合、-10 点で減点する。
再試験の場合、その合否判定条件は定期試験と同様とするが、最終成績の最高点は60点とする。
|
テキスト・参考書 |
教科書:強化学習、三上貞芳、皆川雅章訳、森北出版
参考書:マルチエージェント学習ーー相互作用の謎に迫るーー、高玉圭樹著、コロナ社
参考書:学習とそのアルゴリズム―ニューラルネットワーク・遺伝アルゴリズム・強化学習、電気
学会GA ニューロを用いた学習法とその応用調査専門委員会、森北出版
|
メッセージ |
1)ノートを必ず取ること。
2)課題は必ず理解し、日限までに提出すること。
3)教科書・ノート・課題を必ず勉強すること
4)勉強をしても不明点は教員室まで聞きに来ること。
|
授業の内容 |
授業項目 | 授業項目ごとの達成目標 |
1)ガイダンス、シラバス、強化学習の
基礎と構成要素(1 回)
2)目標、報酬、収益、価値関数の定義
(2 回)
3)マルコフ決定過程(2 回)
4)動的計画法(3 回)
|
1)強化学習の基礎と構成要素を理解できる。
2)目標、報酬、収益、価値関数の定義を理解できる。
3)マルコフ決定過程を理解できる。
4)動的計画法を理解でき、アルゴリズムを書ける。
|
後期中間試験 |
実施しない
|
1)モンテカルロ法(2)
2)TD 法(2)
3)Q 学習アルゴリズム(3 回)
|
1)モンテカルロ法を理解し、アルゴリズムを書ける。
2)TD 法を理解し、アルゴリズムを書ける。
3)Q 学習を理解し、アルゴリズムを書ける。
|
後期期末試験 |
実施する
|