第19章 置信域:PPO、TRPO、ACKTR及SAC
- 深度強化學習實踐(原書第2版)
- (俄)馬克西姆·拉潘
- 687字
- 2021-08-18 17:40:12
上QQ閱讀APP看后續(xù)精彩內(nèi)容
登錄訂閱本章 >
推薦閱讀
- 深度學習與目標檢測(第2版)
- 為機器立心(通用人工智能的中國藍圖系列)
- 生成式人工智能(基于PyTorch實現(xiàn))
- 機器學習與數(shù)據(jù)科學(基于R的統(tǒng)計學習方法)
- 向AI提問的藝術(shù):提示工程入門與應用
- PVCBOT超簡單機器人設(shè)計與制作(第2版)
- 一本書讀懂大模型:技術(shù)創(chuàng)新、商業(yè)應用與產(chǎn)業(yè)變革
- Unity虛擬現(xiàn)實開發(fā)實戰(zhàn)
- 深度學習
- 人形機器人(原書第2版)
- 新機器智能
- 因果推斷導論
- AI助理:用ChatGPT輕松搞定工作
- AI賦能項目經(jīng)理:10倍提升項目管理效率
- 基于NI Multisim 11的PLD/PIC/PLC的仿真設(shè)計