本書有DRM加密保護,需使用HyRead閱讀軟體開啟
  • 用Python實作強化學習:使用TensorFlow與OpenAI Gym
  • 點閱:189
  • 譯自:Hands-on reinforcement learning with Python
  • 作者: Sudharsan Ravichandiran著 , CAVEDU教育團隊, 曾吉弘譯
  • 出版社:碁峰資訊
  • 出版年:2019[民108]
  • ISBN:978-986-502-216-7 ; 986-502-216-8 ; 978-986-502-141-2 ; 986-502-141-2
  • 格式:PDF
  • 版次:初版
  • 附註:原紙本書ISBN: 9789865021412 含附錄

內容簡介
 
強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。
 
本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。

 
本書精彩內容:
.理解強化學習方法、演算法與重要元素的相關基礎
.使用OpenAI Gym與TensorFlow來訓練代理
.理解Markov決策過程、Bellman最佳化與TD學習
.運用多種演算法來解決多臂式吃角子老虎問題
.熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用
.使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲
.使用DDPG來教導代理來玩月球冒險遊戲
.使用競爭DQN來訓練代理來玩賽車遊戲


  • 前言(第xvi頁)
  • 1 認識強化學習(第1頁)
    • 什麼是 RL?(第2頁)
    • RL 演算法(第3頁)
    • RL 與其他 ML 方法有何不同?(第4頁)
    • RL 所包含的重要元素(第5頁)
    • 代理環境介面(第6頁)
    • RL 的環境類型(第7頁)
    • RL 的各種平台(第9頁)
    • RL 的各種應用(第10頁)
    • 總結(第12頁)
    • 問題(第12頁)
    • 延伸閱讀(第12頁)
  • 2 認識 OpenAI 與 TensorFlow(第13頁)
    • 設定電腦(第14頁)
    • OpenAI Gym(第19頁)
    • OpenAI Universe(第24頁)
    • TensorFlow(第29頁)
    • 總結(第35頁)
    • 問題(第36頁)
    • 延伸閱讀(第36頁)
  • 3 Markov 決策過程與動態規劃(第37頁)
    • Markov 鏈與 Markov 過程(第38頁)
    • Markov 決策過程(第40頁)
    • Bellman 方程式與最佳性(第45頁)
    • 解 Bellman 方程式(第49頁)
    • 解決凍湖問題(第57頁)
    • 總結(第69頁)
    • 問題(第69頁)
    • 延伸閱讀(第70頁)
  • 4 使用 Monte Carlo 方法來玩遊戲(第71頁)
    • Monte Carlo 方法(第72頁)
    • Monte Carlo 預測(第76頁)
    • Monte Carlo 控制(第87頁)
    • 總結(第95頁)
    • 延伸閱讀(第96頁)
    • 問題(第96頁)
  • 5 時間差分學習(第97頁)
    • TD 學習(第98頁)
    • TD 預測(第98頁)
    • TD 控制(第101頁)
    • Q 學習與 SARSA 的差異(第117頁)
    • 總結(第118頁)
    • 問題(第118頁)
    • 延伸閱讀(第118頁)
  • 6 多臂式吃角子老虎機問題(第119頁)
    • MAB 問題(第120頁)
    • MAB 的應用(第130頁)
    • 使用 MAB 來找出正確的廣告橫幅(第131頁)
    • 情境式吃角子老虎機(第134頁)
    • 總結(第134頁)
    • 問題(第135頁)
    • 延伸閱讀(第135頁)
  • 7 深度學習的基礎概念(第137頁)
    • 人工神經元(第138頁)
    • 類神經網路(第139頁)
    • 深入理解 ANN(第143頁)
    • TensorFlow 中的神經網路(第151頁)
    • RNN(第155頁)
    • 長短期記憶 RNN(第160頁)
    • 卷積神經網路(第167頁)
    • 使用 CNN 來分類時尚產品(第175頁)
    • 總結(第181頁)
    • 問題(第182頁)
    • 延伸閱讀(第182頁)
  • 8 使用深度 Q 網路來玩 Atari 遊戲(第183頁)
    • 什麼是深度 Q 網路?(第184頁)
    • DQN 的架構(第185頁)
    • 建立代理來進行 Atari 遊戲(第189頁)
    • 雙層 DQN(第198頁)
    • 優先經驗回放(第199頁)
    • 競爭網路架構(第200頁)
    • 總結(第201頁)
    • 問題(第202頁)
    • 延伸閱讀(第202頁)
  • 9 使用深度循環 Q 網路來玩毀滅戰士(第203頁)
    • DRQN(第204頁)
    • 訓練代理來玩毀滅戰士(第206頁)
    • DARQN(第218頁)
    • 總結(第219頁)
    • 問題(第220頁)
    • 延伸閱讀(第220頁)
  • 10 非同步優勢動作評價網路(第221頁)
    • 非同步優勢動作評價(第222頁)
    • 使用 A3C 來爬山(第225頁)
    • 總結(第235頁)
    • 問題(第235頁)
    • 延伸閱讀(第236頁)
  • 11 策略梯度與最佳化(第237頁)
    • 策略梯度(第238頁)
    • 深度確定性策略梯度(第243頁)
    • 信賴域策略最佳化(第252頁)
    • 近端策略最佳化(第257頁)
    • 總結(第259頁)
    • 問題(第260頁)
    • 延伸閱讀(第260頁)
  • 12 總和專題-使用 DQN 來玩賽車遊戲(第261頁)
    • 環境包裝函數(第262頁)
    • 競爭網路(第265頁)
    • 回放記憶(第268頁)
    • 訓練網路(第269頁)
    • 賽車遊戲(第275頁)
    • 總結(第279頁)
    • 問題(第279頁)
    • 延伸閱讀(第280頁)
  • 13 近期發展與下一步(第281頁)
    • 想像增強代理(第282頁)
    • 由人類偏好來學習(第286頁)
    • 由示範來進行深度 Q 學習(第287頁)
    • 事後經驗回放(第288頁)
    • 層次強化學習(第290頁)
    • 逆向強化學習(第295頁)
    • 總結(第295頁)
    • 問題(第296頁)
    • 延伸閱讀(第296頁)
  • A 參考答案(第297頁)
紙本書 NT$ 520
單本電子書
NT$ 364

還沒安裝 HyRead 3 嗎?馬上免費安裝~
QR Code