
0人評分過此書
用Python實作強化學習:使用TensorFlow與OpenAI Gym
強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。
本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。
本書精彩內容:
.理解強化學習方法、演算法與重要元素的相關基礎
.使用OpenAI Gym與TensorFlow來訓練代理
.理解Markov決策過程、Bellman最佳化與TD學習
.運用多種演算法來解決多臂式吃角子老虎問題
.熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用
.使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
.使用DDPG來教導代理來玩月球冒險遊戲
.使用競爭DQN來訓練代理來玩賽車遊戲
本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。
本書精彩內容:
.理解強化學習方法、演算法與重要元素的相關基礎
.使用OpenAI Gym與TensorFlow來訓練代理
.理解Markov決策過程、Bellman最佳化與TD學習
.運用多種演算法來解決多臂式吃角子老虎問題
.熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用
.使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
.使用DDPG來教導代理來玩月球冒險遊戲
.使用競爭DQN來訓練代理來玩賽車遊戲
- 前言
-
1 認識強化學習
-
什麼是RL?
-
RL演算法
-
RL與其他ML 方法有何不同?
-
RL所包含的重要元素
-
代理
-
策略函數
-
價值函數
-
模型
-
-
代理環境介面
-
RL的環境類型
-
決定型環境
-
隨機型環境
-
完全可觀察環境
-
部分可觀察環境
-
離散型環境
-
連續型環境
-
世代型與非世代型環境
-
單一代理與多重代理環境
-
-
RL的各種平台
-
OpenAI Gym與Universe
-
DeepMind Lab
-
RL-Glue
-
Project Malmo
-
ViZDoom
-
-
RL的各種應用
-
教育
-
醫學與健康照護
-
製造業
-
庫存管理
-
金融
-
自然語言處理與電腦視覺
-
-
總結
-
問題
-
延伸閱讀
-
-
2 認識OpenAI 與TensorFlow
-
設定電腦
-
安裝Anaconda
-
安裝Docker
-
安裝OpenAI Gym與Universe
-
-
OpenAI Gym
-
基本模擬
-
訓練機器人走路
-
-
OpenAI Universe
-
打造電玩機器人
-
-
TensorFlow
-
變數、常數與佔位符
-
運算圖
-
階段
-
TensorBoard
-
-
總結
-
問題
-
延伸閱讀
-
-
3 Markov決策過程與動態規劃
-
Markov鏈與Markov過程
-
Markov決策過程
-
獎勵與回報
-
世代型與連續型任務
-
折扣因子
-
策略函數
-
狀態-價值函數
-
狀態-動作價值函數(Q函數)
-
-
Bellman方程式與最佳性
-
推導用於價值函數與Q函數的Bellman方程式
-
-
解Bellman方程式
-
動態規劃
-
-
解決凍湖問題
-
價值迭代
-
策略迭代
-
-
總結
-
問題
-
延伸閱讀
-
-
4 使用Monte Carlo方法來玩遊戲
-
Monte Carlo方法
-
使用Monte Carlo來估算圓周率
-
-
Monte Carlo預測
-
首次訪問Monte Carlo
-
每次訪問Monte Carlo
-
使用Monte Carlo來玩二十一點
-
-
Monte Carlo控制
-
Monte Carlo起始點
-
現時Monte Carlo控制
-
離線Monte Carlo控制
-
-
總結
-
問題
-
延伸閱讀
-
-
5 時間差分學習
-
TD學習
-
TD預測
-
TD控制
-
Q學習
-
SARSA
-
-
Q學習與SARSA的差異
-
總結
-
問題
-
延伸閱讀
-
-
6 多臂式吃角子老虎機問題
-
MAB問題
-
epsilon-貪婪策略
-
softmax探索演算法
-
信賴區間上限演算法
-
湯普森取樣演算法
-
-
MAB的應用
-
使用MAB來找出正確的廣告橫幅
-
情境式吃角子老虎機
-
總結
-
問題
-
延伸閱讀
-
-
7 深度學習的基礎概念
-
人工神經元
-
類神經網路
-
輸入層
-
隱藏層
-
輸出層
-
觸發函數
-
-
深入理解ANN
-
梯度下降
-
-
TensorFlow中的神經網路
-
RNN
-
隨著時間進行反向傳播
-
-
長短期記憶RNN
-
使用LSTM RNN來產生歌詞
-
-
卷積神經網路
-
卷積層
-
池化層
-
全連接層
-
CNN的架構
-
-
使用CNN來分類時尚產品
-
總結
-
問題
-
延伸閱讀
-
-
8 使用深度Q網路來玩Atari遊戲
-
什麼是深度Q網路?
-
DQN的架構
-
卷積網路
-
經驗回放
-
目標網路
-
獎勵修剪
-
認識演算法
-
-
建立代理來進行Atari遊戲
-
雙層DQN
-
優先經驗回放
-
競爭網路架構
-
總結
-
問題
-
延伸閱讀
-
-
9 使用深度循環Q網路來玩毀滅戰士
-
DRQN
-
DRQN的架構
-
-
訓練代理來玩毀滅戰士
-
簡易毀滅戰士遊戲
-
使用DRQN來玩毀滅戰士
-
-
DARQN
-
DARQN的架構
-
-
總結
-
問題
-
延伸閱讀
-
-
10 非同步優勢動作評價網路
-
非同步優勢動作評價
-
三個A
-
A3C的架構
-
A3C的運作原理
-
-
使用A3C來爬山
-
在TensorBoard中來視覺化呈現
-
-
總結
-
問題
-
延伸閱讀
-
-
11 策略梯度與最佳化
-
策略梯度
-
使用策略梯度來玩月球冒險遊戲
-
-
深度確定性策略梯度
-
搖動單擺
-
-
信賴域策略最佳化
-
近端策略最佳化
-
總結
-
問題
-
延伸閱讀
-
-
12 總和專題–使用DQN來玩賽車遊戲
-
環境包裝函數
-
競爭網路
-
回放記憶
-
訓練網路
-
賽車遊戲
-
總結
-
問題
-
延伸閱讀
-
-
13 近期發展與下一步
-
想像增強代理
-
由人類偏好來學習
-
由示範來進行深度Q學習
-
事後經驗回放
-
層次強化學習
-
MAXQ價值函數分解
-
-
逆向強化學習
-
總結
-
問題
-
延伸閱讀
-
- A 參考答案
- 出版地 : 臺灣
- 語言 : 繁體中文
評分與評論
請登入後再留言與評分