最適化のための強化学習

強化学習を使った最適化手法をゼロから理解する！

　本書では、強化学習における基本的な考え方や計算手法を紹介し、実際にPython を用いて実現する方法をまとめている。具体的にはマルコフ決定過程、価値関数、方策評価、方策反復、価値反復、モンテカルロ評価、SARSA、Q学習を扱う。ほとんどの内容は簡単な数学の知識があれば問題なく理解できるよう記述し、読者の学びやすさを優先して繰り返しの説明や既出の数式を再掲するなど工夫している。Pythonの基礎から強化学習の利用までを詳細に解説した充実の一冊。

電子書籍¥3,520 小売希望価格（税込）

紙の書籍¥3,520定価（税込）

基本情報

発売日	2024年9月30日
本体価格	3,200円
ページ数	204 ページ　※印刷物
サイズ	B5 変形
ISBN	9784764907102
ジャンル	情報
タグ	情報処理, Python, 機械学習・深層学習
電子書籍形式	固定型

主要目次

第1章 Python で強化学習を行うための環境構築
1.1 オンラインサービスを利用する方法
1.2 手元のコンピュータに実行環境を整える方法
1.3 パッケージのインストール
1.4 実行環境

第2章 Pythonの基礎
2.1 データ構造
2.2 科学技術計算パッケージNumPy
2.3 条件分岐
2.4 繰り返し処理
2.5 可視化ライブラリMatplotlib
2.6 関数
2.7 内包表記

第3章強化学習

第4章マルコフ決定過程
4.1 マルコフ性
4.2 推移確率行列
4.3 マルコフ過程
4.4 マルコフ報酬過程
4.5 リターン
4.6 価値関数
4.7 方策
4.8 マルコフ決定過程

第5章動的計画
5.1 例1: 整数の和
5.2 例2: 最短路問題
5.3 動的計画による価値関数の評価
5.4 方策評価
5.5 方策改善
5.6 方策反復
5.7 価値反復

第6章モンテカルロ学習
6.1 全幅探索とサンプル探索
6.2 モンテカルロ方策評価
6.3 First-visit モンテカルロ方策評価
6.4 Every-visit モンテカルロ方策評価
6.5 平均の増分計算

第7章 Temporal Difference 学習
7.1 TD(0) 学習
7.2 オンポリシー学習とオフポリシー学習
7.3 オンポリシーモンテカルロ学習
7.4 オンポリシーTD 学習- SARSA
7.5 オフポリシーTD 学習- Q学習

目次をさらに表示する

著者紹介

小林　和博（こばやし　かずひろ）
1998 年　東京大学工学部計数工学科卒業　
2000 年　東京大学大学院工学系研究科計数工学専攻修士課程修了、修士（工学）
2009 年　博士（理学）
現　在　　青山学院大学理工学部准教授

主要著書
『サプライチェーンリスク管理と人道支援ロジスティクス』（共著）、近代科学社(2015)
『航海応用力学の基礎』（共著）、成山堂書店(2015)
『Python 言語によるビジネスアナリティクス|実務家のための最適化・統計解析・機械
学習』（共著）、近代科学社(2016)
『最適化問題入門』（Python による問題解決シリーズ2）、近代科学社(2020)

著者紹介をさらに表示する

詳細情報はこちら

近代科学社

書籍検索

ジャンル選択

数学のタグ一覧

情報のタグ一覧

工学のタグ一覧

その他のタグ一覧

Pythonによる問題解決シリーズ第3巻

最適化のための強化学習

電子書籍¥3,520 小売希望価格（税込）

紙の書籍¥3,520定価（税込）

基本情報

主要目次

著者紹介

Pythonによる問題解決シリーズ 第3巻

最適化のための強化学習

電子書籍¥3,520 小売希望価格（税込）

紙の書籍¥3,520定価（税込）

基本情報

主要目次

著者紹介

Pythonによる問題解決シリーズ第3巻