舉報(bào)

會(huì)員
深度強(qiáng)化學(xué)習(xí)實(shí)踐(原書第2版)
最新章節(jié):
25.7 總結(jié)
本書的主題是強(qiáng)化學(xué)習(xí)(ReinforcementLearning,RL),它是機(jī)器學(xué)習(xí)(MachineLearning,ML)的一個(gè)分支,強(qiáng)調(diào)如何解決在復(fù)雜環(huán)境中選擇最優(yōu)動(dòng)作時(shí)產(chǎn)生的通用且極具挑戰(zhàn)的問(wèn)題。學(xué)習(xí)過(guò)程僅由獎(jiǎng)勵(lì)值和從環(huán)境中獲得的觀察驅(qū)動(dòng)。該模型非常通用,能應(yīng)用于多個(gè)真實(shí)場(chǎng)景,從玩游戲到優(yōu)化復(fù)雜制造過(guò)程都能涵蓋。
最新章節(jié)
- 25.7 總結(jié)
- 25.6 相同actor之間的戰(zhàn)斗
- 25.5 同時(shí)訓(xùn)練老虎和鹿
- 25.4 老虎的合作
- 25.3 老虎的深度Q-network
- 25.2 MAgent環(huán)境
品牌:機(jī)械工業(yè)出版社
譯者:林然 王薇
上架時(shí)間:2021-08-18 17:31:18
出版社:機(jī)械工業(yè)出版社
本書數(shù)字版權(quán)由機(jī)械工業(yè)出版社提供,并由其授權(quán)上海閱文信息技術(shù)有限公司制作發(fā)行
- 25.7 總結(jié) 更新時(shí)間:2021-08-18 17:40:31
- 25.6 相同actor之間的戰(zhàn)斗
- 25.5 同時(shí)訓(xùn)練老虎和鹿
- 25.4 老虎的合作
- 25.3 老虎的深度Q-network
- 25.2 MAgent環(huán)境
- 25.1 多智能體RL的說(shuō)明
- 第25章 多智能體強(qiáng)化學(xué)習(xí)
- 24.11 總結(jié)
- 24.10 進(jìn)一步改進(jìn)和實(shí)驗(yàn)
- 24.9 實(shí)驗(yàn)結(jié)果
- 24.8 代碼概覽
- 24.7 論文結(jié)果
- 24.6 模型應(yīng)用
- 24.5 訓(xùn)練過(guò)程
- 24.4 魔方求解的方法
- 24.3 最佳性與上帝的數(shù)字
- 24.2 魔方和組合優(yōu)化
- 24.1 強(qiáng)化學(xué)習(xí)的名聲
- 第24章 離散優(yōu)化中的強(qiáng)化學(xué)習(xí)
- 23.6 參考文獻(xiàn)
- 23.5 總結(jié)
- 23.4 四子連橫棋的結(jié)果
- 23.3 四子連橫棋機(jī)器人
- 23.2 AlphaGo Zero方法
- 23.1 棋盤游戲
- 第23章 AlphaGo Zero
- 22.6 參考文獻(xiàn)
- 22.5 總結(jié)
- 22.4 實(shí)驗(yàn)結(jié)果
- 22.3 將I2A用在Atari Breakout上
- 22.2 想象力增強(qiáng)型智能體
- 22.1 基于模型的方法
- 第22章 超越無(wú)模型方法:想象力
- 21.7 參考文獻(xiàn)
- 21.6 總結(jié)
- 21.5 Atari實(shí)驗(yàn)
- 21.4 MountainCar實(shí)驗(yàn)
- 21.3 其他探索方式
- 21.2 ε-greedy怎么了
- 21.1 為什么探索很重要
- 第21章 高級(jí)探索
- 20.5 參考文獻(xiàn)
- 20.4 總結(jié)
- 20.3 遺傳算法
- 20.2 進(jìn)化策略
- 20.1 黑盒方法
- 第20章 強(qiáng)化學(xué)習(xí)中的黑盒優(yōu)化
- 19.7 總結(jié)
- 19.6 SAC
- 19.5 ACKTR
- 19.4 TRPO
- 19.3 PPO
- 19.2 A2C基線
- 19.1 Roboschool
- 第19章 置信域:PPO、TRPO、ACKTR及SAC
- 18.7 總結(jié)
- 18.6 策略實(shí)驗(yàn)
- 18.5 控制硬件
- 18.4 DDPG訓(xùn)練和結(jié)果
- 18.3 模擬器和模型
- 18.2 第一個(gè)訓(xùn)練目標(biāo)
- 18.1 機(jī)器人與機(jī)器人學(xué)
- 第18章 機(jī)器人技術(shù)中的強(qiáng)化學(xué)習(xí)
- 17.6 總結(jié)
- 17.5 可以嘗試的事情
- 17.4 分布的策略梯度
- 17.3 確定性策略梯度
- 17.2 A2C方法
- 17.1 為什么會(huì)有連續(xù)的空間
- 第17章 連續(xù)動(dòng)作空間
- 16.7 總結(jié)
- 16.6 可以嘗試的事情
- 16.5 添加文字描述
- 16.4 人類演示
- 16.3 簡(jiǎn)單的單擊方法
- 16.2 OpenAI Universe
- 16.1 Web導(dǎo)航簡(jiǎn)介
- 第16章 Web導(dǎo)航
- 15.5 總結(jié)
- 15.4 命令生成模型
- 15.3 基線DQN
- 15.2 環(huán)境
- 15.1 文字冒險(xiǎn)游戲
- 第15章 TextWorld環(huán)境
- 14.11 總結(jié)
- 14.10 Telegram機(jī)器人
- 14.9 經(jīng)過(guò)數(shù)據(jù)測(cè)試的模型
- 14.8 訓(xùn)練:SCST
- 14.7 訓(xùn)練:交叉熵
- 14.6 數(shù)據(jù)集探索
- 14.5 聊天機(jī)器人示例
- 14.4 seq2seq訓(xùn)練
- 14.3 深度NLP基礎(chǔ)
- 14.2 訓(xùn)練聊天機(jī)器人
- 14.1 聊天機(jī)器人概述
- 第14章 使用強(qiáng)化學(xué)習(xí)訓(xùn)練聊天機(jī)器人
- 13.6 總結(jié)
- 13.5 梯度并行化的A3C
- 13.4 數(shù)據(jù)并行化的A3C
- 13.3 Python中的多重處理功能
- 13.2 向A2C添加另一個(gè)A
- 13.1 相關(guān)性和采樣效率
- 第13章 A3C
- 12.7 總結(jié)
- 12.6 超參調(diào)優(yōu)
- 12.5 在Pong中使用A2C的結(jié)果
- 12.4 在Pong中使用A2C
- 12.3 actor-critic
- 12.2 CartPole的方差
- 12.1 減小方差
- 第12章 actor-critic方法
- 11.6 總結(jié)
- 11.5 用于Pong的策略梯度方法
- 11.4 用于CartPole的策略梯度方法
- 11.3 REINFORCE的問(wèn)題
- 11.2 REINFORCE方法
- 11.1 價(jià)值與策略
- 第11章 策略梯度:一種替代方法
- 10.9 總結(jié)
- 10.8 可以嘗試的事情
- 10.7 結(jié)果
- 10.6 訓(xùn)練代碼
- 10.5 模型
- 10.4 交易環(huán)境
- 10.3 問(wèn)題陳述和關(guān)鍵決策
- 10.2 數(shù)據(jù)
- 10.1 交易
- 第10章 使用強(qiáng)化學(xué)習(xí)進(jìn)行股票交易
- 9.10 參考文獻(xiàn)
- 9.9 總結(jié)
- 9.8 硬核CuLE
- 9.7 基準(zhǔn)測(cè)試總結(jié)
- 9.6 調(diào)整包裝器
- 9.5 在不同進(jìn)程中分別交互和訓(xùn)練
- 9.4 多個(gè)環(huán)境
- 9.3 PyTorch中的計(jì)算圖
- 9.2 基線
- 9.1 為什么速度很重要
- 第9章 加速?gòu)?qiáng)化學(xué)習(xí)訓(xùn)練的方法
- 8.10 參考文獻(xiàn)
- 8.9 總結(jié)
- 8.8 組合所有方法
- 8.7 Categorical DQN
- 8.6 Dueling DQN
- 8.5 帶優(yōu)先級(jí)的回放緩沖區(qū)
- 8.4 噪聲網(wǎng)絡(luò)
- 8.3 Double DQN
- 8.2 N步DQN
- 8.1 基礎(chǔ)DQN
- 第8章 DQN擴(kuò)展
- 7.5 總結(jié)
- 7.4 其他強(qiáng)化學(xué)習(xí)庫(kù)
- 7.3 PTAN版本的CartPole解決方案
- 7.2 PTAN庫(kù)
- 7.1 為什么使用強(qiáng)化學(xué)習(xí)庫(kù)
- 第7章 高級(jí)強(qiáng)化學(xué)習(xí)庫(kù)
- 6.6 總結(jié)
- 6.5 可以嘗試的事情
- 6.4 DQN應(yīng)用于Pong游戲
- 6.3 深度Q-learning
- 6.2 表格Q-learning
- 6.1 現(xiàn)實(shí)的價(jià)值迭代
- 第6章 深度Q-network
- 5.7 總結(jié)
- 5.6 Q-learning在FrozenLake中的應(yīng)用
- 5.5 價(jià)值迭代實(shí)踐
- 5.4 價(jià)值迭代法
- 5.3 動(dòng)作的價(jià)值
- 5.2 最佳Bellman方程
- 5.1 價(jià)值、狀態(tài)和最優(yōu)性
- 第5章 表格學(xué)習(xí)和Bellman方程
- 4.6 總結(jié)
- 4.5 交叉熵方法的理論背景
- 4.4 交叉熵方法在FrozenLake中的應(yīng)用
- 4.3 交叉熵方法在CartPole中的應(yīng)用
- 4.2 交叉熵方法的實(shí)踐
- 4.1 RL方法的分類
- 第4章 交叉熵方法
- 3.9 總結(jié)
- 3.8 PyTorch Ignite
- 3.7 示例:將GAN應(yīng)用于Atari圖像
- 3.6 使用TensorBoard進(jìn)行監(jiān)控
- 3.5 最終黏合劑:損失函數(shù)和優(yōu)化器
- 3.4 自定義層
- 3.3 NN構(gòu)建塊
- 3.2 梯度
- 3.1 張量
- 第3章 使用PyTorch進(jìn)行深度學(xué)習(xí)
- 2.6 總結(jié)
- 2.5 Gym的額外功能:包裝器和監(jiān)控器
- 2.4 隨機(jī)CartPole智能體
- 2.3 OpenAI Gym API
- 2.2 硬件和軟件要求
- 2.1 剖析智能體
- 第2章 OpenAI Gym
- 1.5 總結(jié)
- 1.4 強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)
- 1.3 強(qiáng)化學(xué)習(xí)的形式
- 1.2 強(qiáng)化學(xué)習(xí)的復(fù)雜性
- 1.1 機(jī)器學(xué)習(xí)分類
- 第1章 什么是強(qiáng)化學(xué)習(xí)
- 審校者簡(jiǎn)介
- 作者簡(jiǎn)介
- 前言
- 譯者序
- 版權(quán)信息
- 封面
- 封面
- 版權(quán)信息
- 譯者序
- 前言
- 作者簡(jiǎn)介
- 審校者簡(jiǎn)介
- 第1章 什么是強(qiáng)化學(xué)習(xí)
- 1.1 機(jī)器學(xué)習(xí)分類
- 1.2 強(qiáng)化學(xué)習(xí)的復(fù)雜性
- 1.3 強(qiáng)化學(xué)習(xí)的形式
- 1.4 強(qiáng)化學(xué)習(xí)的理論基礎(chǔ)
- 1.5 總結(jié)
- 第2章 OpenAI Gym
- 2.1 剖析智能體
- 2.2 硬件和軟件要求
- 2.3 OpenAI Gym API
- 2.4 隨機(jī)CartPole智能體
- 2.5 Gym的額外功能:包裝器和監(jiān)控器
- 2.6 總結(jié)
- 第3章 使用PyTorch進(jìn)行深度學(xué)習(xí)
- 3.1 張量
- 3.2 梯度
- 3.3 NN構(gòu)建塊
- 3.4 自定義層
- 3.5 最終黏合劑:損失函數(shù)和優(yōu)化器
- 3.6 使用TensorBoard進(jìn)行監(jiān)控
- 3.7 示例:將GAN應(yīng)用于Atari圖像
- 3.8 PyTorch Ignite
- 3.9 總結(jié)
- 第4章 交叉熵方法
- 4.1 RL方法的分類
- 4.2 交叉熵方法的實(shí)踐
- 4.3 交叉熵方法在CartPole中的應(yīng)用
- 4.4 交叉熵方法在FrozenLake中的應(yīng)用
- 4.5 交叉熵方法的理論背景
- 4.6 總結(jié)
- 第5章 表格學(xué)習(xí)和Bellman方程
- 5.1 價(jià)值、狀態(tài)和最優(yōu)性
- 5.2 最佳Bellman方程
- 5.3 動(dòng)作的價(jià)值
- 5.4 價(jià)值迭代法
- 5.5 價(jià)值迭代實(shí)踐
- 5.6 Q-learning在FrozenLake中的應(yīng)用
- 5.7 總結(jié)
- 第6章 深度Q-network
- 6.1 現(xiàn)實(shí)的價(jià)值迭代
- 6.2 表格Q-learning
- 6.3 深度Q-learning
- 6.4 DQN應(yīng)用于Pong游戲
- 6.5 可以嘗試的事情
- 6.6 總結(jié)
- 第7章 高級(jí)強(qiáng)化學(xué)習(xí)庫(kù)
- 7.1 為什么使用強(qiáng)化學(xué)習(xí)庫(kù)
- 7.2 PTAN庫(kù)
- 7.3 PTAN版本的CartPole解決方案
- 7.4 其他強(qiáng)化學(xué)習(xí)庫(kù)
- 7.5 總結(jié)
- 第8章 DQN擴(kuò)展
- 8.1 基礎(chǔ)DQN
- 8.2 N步DQN
- 8.3 Double DQN
- 8.4 噪聲網(wǎng)絡(luò)
- 8.5 帶優(yōu)先級(jí)的回放緩沖區(qū)
- 8.6 Dueling DQN
- 8.7 Categorical DQN
- 8.8 組合所有方法
- 8.9 總結(jié)
- 8.10 參考文獻(xiàn)
- 第9章 加速?gòu)?qiáng)化學(xué)習(xí)訓(xùn)練的方法
- 9.1 為什么速度很重要
- 9.2 基線
- 9.3 PyTorch中的計(jì)算圖
- 9.4 多個(gè)環(huán)境
- 9.5 在不同進(jìn)程中分別交互和訓(xùn)練
- 9.6 調(diào)整包裝器
- 9.7 基準(zhǔn)測(cè)試總結(jié)
- 9.8 硬核CuLE
- 9.9 總結(jié)
- 9.10 參考文獻(xiàn)
- 第10章 使用強(qiáng)化學(xué)習(xí)進(jìn)行股票交易
- 10.1 交易
- 10.2 數(shù)據(jù)
- 10.3 問(wèn)題陳述和關(guān)鍵決策
- 10.4 交易環(huán)境
- 10.5 模型
- 10.6 訓(xùn)練代碼
- 10.7 結(jié)果
- 10.8 可以嘗試的事情
- 10.9 總結(jié)
- 第11章 策略梯度:一種替代方法
- 11.1 價(jià)值與策略
- 11.2 REINFORCE方法
- 11.3 REINFORCE的問(wèn)題
- 11.4 用于CartPole的策略梯度方法
- 11.5 用于Pong的策略梯度方法
- 11.6 總結(jié)
- 第12章 actor-critic方法
- 12.1 減小方差
- 12.2 CartPole的方差
- 12.3 actor-critic
- 12.4 在Pong中使用A2C
- 12.5 在Pong中使用A2C的結(jié)果
- 12.6 超參調(diào)優(yōu)
- 12.7 總結(jié)
- 第13章 A3C
- 13.1 相關(guān)性和采樣效率
- 13.2 向A2C添加另一個(gè)A
- 13.3 Python中的多重處理功能
- 13.4 數(shù)據(jù)并行化的A3C
- 13.5 梯度并行化的A3C
- 13.6 總結(jié)
- 第14章 使用強(qiáng)化學(xué)習(xí)訓(xùn)練聊天機(jī)器人
- 14.1 聊天機(jī)器人概述
- 14.2 訓(xùn)練聊天機(jī)器人
- 14.3 深度NLP基礎(chǔ)
- 14.4 seq2seq訓(xùn)練
- 14.5 聊天機(jī)器人示例
- 14.6 數(shù)據(jù)集探索
- 14.7 訓(xùn)練:交叉熵
- 14.8 訓(xùn)練:SCST
- 14.9 經(jīng)過(guò)數(shù)據(jù)測(cè)試的模型
- 14.10 Telegram機(jī)器人
- 14.11 總結(jié)
- 第15章 TextWorld環(huán)境
- 15.1 文字冒險(xiǎn)游戲
- 15.2 環(huán)境
- 15.3 基線DQN
- 15.4 命令生成模型
- 15.5 總結(jié)
- 第16章 Web導(dǎo)航
- 16.1 Web導(dǎo)航簡(jiǎn)介
- 16.2 OpenAI Universe
- 16.3 簡(jiǎn)單的單擊方法
- 16.4 人類演示
- 16.5 添加文字描述
- 16.6 可以嘗試的事情
- 16.7 總結(jié)
- 第17章 連續(xù)動(dòng)作空間
- 17.1 為什么會(huì)有連續(xù)的空間
- 17.2 A2C方法
- 17.3 確定性策略梯度
- 17.4 分布的策略梯度
- 17.5 可以嘗試的事情
- 17.6 總結(jié)
- 第18章 機(jī)器人技術(shù)中的強(qiáng)化學(xué)習(xí)
- 18.1 機(jī)器人與機(jī)器人學(xué)
- 18.2 第一個(gè)訓(xùn)練目標(biāo)
- 18.3 模擬器和模型
- 18.4 DDPG訓(xùn)練和結(jié)果
- 18.5 控制硬件
- 18.6 策略實(shí)驗(yàn)
- 18.7 總結(jié)
- 第19章 置信域:PPO、TRPO、ACKTR及SAC
- 19.1 Roboschool
- 19.2 A2C基線
- 19.3 PPO
- 19.4 TRPO
- 19.5 ACKTR
- 19.6 SAC
- 19.7 總結(jié)
- 第20章 強(qiáng)化學(xué)習(xí)中的黑盒優(yōu)化
- 20.1 黑盒方法
- 20.2 進(jìn)化策略
- 20.3 遺傳算法
- 20.4 總結(jié)
- 20.5 參考文獻(xiàn)
- 第21章 高級(jí)探索
- 21.1 為什么探索很重要
- 21.2 ε-greedy怎么了
- 21.3 其他探索方式
- 21.4 MountainCar實(shí)驗(yàn)
- 21.5 Atari實(shí)驗(yàn)
- 21.6 總結(jié)
- 21.7 參考文獻(xiàn)
- 第22章 超越無(wú)模型方法:想象力
- 22.1 基于模型的方法
- 22.2 想象力增強(qiáng)型智能體
- 22.3 將I2A用在Atari Breakout上
- 22.4 實(shí)驗(yàn)結(jié)果
- 22.5 總結(jié)
- 22.6 參考文獻(xiàn)
- 第23章 AlphaGo Zero
- 23.1 棋盤游戲
- 23.2 AlphaGo Zero方法
- 23.3 四子連橫棋機(jī)器人
- 23.4 四子連橫棋的結(jié)果
- 23.5 總結(jié)
- 23.6 參考文獻(xiàn)
- 第24章 離散優(yōu)化中的強(qiáng)化學(xué)習(xí)
- 24.1 強(qiáng)化學(xué)習(xí)的名聲
- 24.2 魔方和組合優(yōu)化
- 24.3 最佳性與上帝的數(shù)字
- 24.4 魔方求解的方法
- 24.5 訓(xùn)練過(guò)程
- 24.6 模型應(yīng)用
- 24.7 論文結(jié)果
- 24.8 代碼概覽
- 24.9 實(shí)驗(yàn)結(jié)果
- 24.10 進(jìn)一步改進(jìn)和實(shí)驗(yàn)
- 24.11 總結(jié)
- 第25章 多智能體強(qiáng)化學(xué)習(xí)
- 25.1 多智能體RL的說(shuō)明
- 25.2 MAgent環(huán)境
- 25.3 老虎的深度Q-network
- 25.4 老虎的合作
- 25.5 同時(shí)訓(xùn)練老虎和鹿
- 25.6 相同actor之間的戰(zhàn)斗
- 25.7 總結(jié) 更新時(shí)間:2021-08-18 17:40:31