0人評分過此書

用Python實作強化學習:使用TensorFlow與OpenAI Gym

出版日期
2019/05/29
閱讀格式
PDF
書籍分類
學科分類
ISBN
9789865021412

本館館藏

借閱規則
當前可使用人數 3
借閱天數 14
線上看 0
借閱中 0
選擇分享方式

推薦本館採購書籍

您可以將喜歡的電子書推薦給圖書館,圖書館會參考讀者意見進行採購

讀者資料
圖書館 桃園市立圖書館
* 姓名
* 身分
系所
* E-mail
※ 我們會寄送一份副本至您填寫的Email中
電話
※ 電話格式為 區碼+電話號碼(ex. 0229235151)/ 手機格式為 0900111111
* 請輸入驗證碼
強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。

本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。

本書精彩內容:
.理解強化學習方法、演算法與重要元素的相關基礎
.使用OpenAI Gym與TensorFlow來訓練代理
.理解Markov決策過程、Bellman最佳化與TD學習
.運用多種演算法來解決多臂式吃角子老虎問題
.熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用
.使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
.使用DDPG來教導代理來玩月球冒險遊戲
.使用競爭DQN來訓練代理來玩賽車遊戲
  • 前言
  • 1 認識強化學習
    • 什麼是RL?
    • RL演算法
    • RL與其他ML 方法有何不同?
    • RL所包含的重要元素
      • 代理
      • 策略函數
      • 價值函數
      • 模型
    • 代理環境介面
    • RL的環境類型
      • 決定型環境
      • 隨機型環境
      • 完全可觀察環境
      • 部分可觀察環境
      • 離散型環境
      • 連續型環境
      • 世代型與非世代型環境
      • 單一代理與多重代理環境
    • RL的各種平台
      • OpenAI Gym與Universe
      • DeepMind Lab
      • RL-Glue
      • Project Malmo
      • ViZDoom
    • RL的各種應用
      • 教育
      • 醫學與健康照護
      • 製造業
      • 庫存管理
      • 金融
      • 自然語言處理與電腦視覺
    • 總結
    • 問題
    • 延伸閱讀
  • 2 認識OpenAI 與TensorFlow
    • 設定電腦
      • 安裝Anaconda
      • 安裝Docker
      • 安裝OpenAI Gym與Universe
    • OpenAI Gym
      • 基本模擬
      • 訓練機器人走路
    • OpenAI Universe
      • 打造電玩機器人
    • TensorFlow
      • 變數、常數與佔位符
      • 運算圖
      • 階段
      • TensorBoard
    • 總結
    • 問題
    • 延伸閱讀
  • 3 Markov決策過程與動態規劃
    • Markov鏈與Markov過程
    • Markov決策過程
      • 獎勵與回報
      • 世代型與連續型任務
      • 折扣因子
      • 策略函數
      • 狀態-價值函數
      • 狀態-動作價值函數(Q函數)
    • Bellman方程式與最佳性
      • 推導用於價值函數與Q函數的Bellman方程式
    • 解Bellman方程式
      • 動態規劃
    • 解決凍湖問題
      • 價值迭代
      • 策略迭代
    • 總結
    • 問題
    • 延伸閱讀
  • 4 使用Monte Carlo方法來玩遊戲
    • Monte Carlo方法
      • 使用Monte Carlo來估算圓周率
    • Monte Carlo預測
      • 首次訪問Monte Carlo
      • 每次訪問Monte Carlo
      • 使用Monte Carlo來玩二十一點
    • Monte Carlo控制
      • Monte Carlo起始點
      • 現時Monte Carlo控制
      • 離線Monte Carlo控制
    • 總結
    • 問題
    • 延伸閱讀
  • 5 時間差分學習
    • TD學習
    • TD預測
    • TD控制
      • Q學習
      • SARSA
    • Q學習與SARSA的差異
    • 總結
    • 問題
    • 延伸閱讀
  • 6 多臂式吃角子老虎機問題
    • MAB問題
      • epsilon-貪婪策略
      • softmax探索演算法
      • 信賴區間上限演算法
      • 湯普森取樣演算法
    • MAB的應用
    • 使用MAB來找出正確的廣告橫幅
    • 情境式吃角子老虎機
    • 總結
    • 問題
    • 延伸閱讀
  • 7 深度學習的基礎概念
    • 人工神經元
    • 類神經網路
      • 輸入層
      • 隱藏層
      • 輸出層
      • 觸發函數
    • 深入理解ANN
      • 梯度下降
    • TensorFlow中的神經網路
    • RNN
      • 隨著時間進行反向傳播
    • 長短期記憶RNN
      • 使用LSTM RNN來產生歌詞
    • 卷積神經網路
      • 卷積層
      • 池化層
      • 全連接層
      • CNN的架構
    • 使用CNN來分類時尚產品
    • 總結
    • 問題
    • 延伸閱讀
  • 8 使用深度Q網路來玩Atari遊戲
    • 什麼是深度Q網路?
    • DQN的架構
      • 卷積網路
      • 經驗回放
      • 目標網路
      • 獎勵修剪
      • 認識演算法
    • 建立代理來進行Atari遊戲
    • 雙層DQN
    • 優先經驗回放
    • 競爭網路架構
    • 總結
    • 問題
    • 延伸閱讀
  • 9 使用深度循環Q網路來玩毀滅戰士
    • DRQN
      • DRQN的架構
    • 訓練代理來玩毀滅戰士
      • 簡易毀滅戰士遊戲
      • 使用DRQN來玩毀滅戰士
    • DARQN
      • DARQN的架構
    • 總結
    • 問題
    • 延伸閱讀
  • 10 非同步優勢動作評價網路
    • 非同步優勢動作評價
      • 三個A
      • A3C的架構
      • A3C的運作原理
    • 使用A3C來爬山
      • 在TensorBoard中來視覺化呈現
    • 總結
    • 問題
    • 延伸閱讀
  • 11 策略梯度與最佳化
    • 策略梯度
      • 使用策略梯度來玩月球冒險遊戲
    • 深度確定性策略梯度
      • 搖動單擺
    • 信賴域策略最佳化
    • 近端策略最佳化
    • 總結
    • 問題
    • 延伸閱讀
  • 12 總和專題–使用DQN來玩賽車遊戲
    • 環境包裝函數
    • 競爭網路
    • 回放記憶
    • 訓練網路
    • 賽車遊戲
    • 總結
    • 問題
    • 延伸閱讀
  • 13 近期發展與下一步
    • 想像增強代理
    • 由人類偏好來學習
    • 由示範來進行深度Q學習
    • 事後經驗回放
    • 層次強化學習
      • MAXQ價值函數分解
    • 逆向強化學習
    • 總結
    • 問題
    • 延伸閱讀
  • A 參考答案

評分與評論

請登入後再留言與評分
幫助
您好,請問需要甚麼幫助呢?
使用指南

客服專線:0800-000-747

服務時間:週一至週五 AM 09:00~PM 06:00

loading