|| 英語(English)
学習支援計画書(シラバス) 検索システム
機械工学専攻
対象課程 科目名 単位数 科目コード 開講時期 授業科目区分
博士前期課程(修士課程)
強化学習特論
Reinforcement Learning
1 2155-01 2024年度
前学期
関係科目
担当教員名
授業科目の学習・教育目標
キーワード 学習・教育目標
1.人工知能 2.機械学習 3.強化学習 本科目では、不確実性のある環境における知的な振る舞いの実現に向けたアプローチを提供 する強化学習の基礎を学ぶ。
授業の概要および学習上の助言
 本科目で取り扱う中心的な内容は強化学習の枠組および基本的な解法である。  強化学習の基本的な概念と手法の理解を深めるためにPython言語によるプログラミング演習を実施する。プログラミ ング演習においては、ノートPCを使用するので、持参すること。
教科書および参考書・リザーブドブック
教科書:強化学習(第2版)[森北出版]
履修に必要な予備知識や技能
学部レベルのPython言語によるプログラミング能力を前提とする。
学生が達成すべき行動目標
No.
強化学習の基本的な概念と手法を説明することができる。
達成度評価
評価方法 試験 クイズ
小テスト
レポート 成果発表
(口頭・実技)
作品 ポートフォリオ その他 合計
総合評価割合 0 0 100 0 0 0 0 100
評価の要点
評価方法 行動目標 評価の実施方法と注意点
試験
クイズ
小テスト
レポート 授業内容の理解を深めるためにレポート課題を課す。記載内容により評価する。
成果発表
(口頭・実技)
作品
ポートフォリオ
その他
具体的な達成の目安
理想的な達成レベルの目安 標準的な達成レベルの目安
強化学習の基本的な概念と手法を正確に説明することができる 。 強化学習の基本的な概念と手法を説明することができる。
※学習課題の時間欄には、指定された学習課題に要する標準的な時間を記載してあります。日々の自学自習時間全体としては、各授業に応じた時間(例えば2単位科目の場合、予習2時間・復習2時間/週)を取るよう努めてください。詳しくは教員の指導に従って下さい。
授業明細
回数 学習内容 授業の運営方法 学習課題 予習・復習 時間:分※
科目ガイダンス 教科書「第1章 序」 教科書「第2章 多腕バンディット問題」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
教科書「第3章 有限マルコフ決定過程」 教科書「第4章 動的計画法」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
教科書「第5章 モンテカルロ法」 教科書「第6章 TD学習」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
教科書「第7章 nステップ・ブートストラップ法」 教科書「第8章 テーブル形式手法におけるプランニ ングと学習」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
教科書「第9章 近似を用いた方策オン型予測」 教科書「第10章 関数近似を用いた方策オン型制御 」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
教科書「第12章 適格度トレース」 教科書「第13章 方策勾配法」 自己点検 講義(質疑応答を含む)と演 習 自己点検 予習:教科書該当範囲の通読 復習:授業内容の理解 100 100
総括 自己点検 講義(質疑応答を含む) 自己点検 予習:第6回までの授業内容の復 習 復習:授業内容の理解 100 100