婵犵數濮烽弫鍛婃叏閻戣棄鏋侀柟闂寸绾剧粯绻涢幋鐑嗙劯婵炴垶鐟﹂崕鐔兼煏婵炲灝鍔氶柣搴弮濮婃椽宕楅懖鈹垮仦闂佸搫鎳忕划宀勬偩閻戣棄钃熼柕澶涚畱閳ь剛鏁婚弻銊モ攽閸℃侗鈧鏌$€n偆銆掔紒杈ㄥ浮閸┾偓妞ゆ帒瀚壕鍏兼叏濡灝浜归柛鐐垫暬閺岋綁鎮╅悜妯糕偓鍐偣閳ь剟鏁冮埀顒€宓勯梺鍛婄☉鏋ù婊勭矒閺屻劑寮村Δ鈧禍楣冩倵濞堝灝鏋涘褍閰i獮鎴﹀閻橆偅鏂€闁诲函缍嗘禍璺横缚婵犲洦鈷戠紓浣光棨椤忓嫷鍤曢悹铏规磪閹烘绠涢柣妤€鐗冮幏娲⒒閸屾氨澧涚紒瀣浮楠炴牠骞囬鐘殿啎閻庣懓澹婇崰鏍嵁閺嶎厽鐓熼柨婵嗘噹濡茬粯銇勯锝囩畼闁圭懓瀚伴幖褰掓偡閺夎法顔囬梻鍌氬€风欢姘跺焵椤掑倸浠滈柤娲诲灡閺呰埖瀵肩€涙ḿ鍘炬俊銈忕畳濞夋洜鑺遍崸妤佺厪闁搞儯鍔屾慨宥嗩殽閻愭潙娴鐐差儔閹粓宕卞鍡橈紙闂傚倸鍊搁崐椋庣矆娓氣偓楠炴牠顢曚綅閸ヮ剦鏁嶉柣鎰綑閳ь剝鍩栫换婵嬫濞戞艾顣哄銈冨劜瀹€鎼佸蓟濞戔懇鈧箓骞嬪┑鍥╀簮婵犵鍓濊ぐ鍐偋閹捐钃熼柨鐔哄Т缁€鍐煃閸濆嫬鈧悂寮冲Δ鍛拺濞村吋鐟х粔顒€霉濠婂骸澧版俊鍙夊姍楠炴帒螖閳ь剚鍎柣鐔哥矊闁帮絽顕i幎钘夌厸闁告劦浜為敍婊堟煛婢跺﹦澧戦柛鏂跨Ч钘熼柛顐犲劜閻撴稑霉閿濆牜娼愮€规洖鐭傞弻鈩冩媴鐟欏嫬纾抽梺杞扮劍閹瑰洭寮幘缁樻櫢闁跨噦鎷� [闂傚倸鍊搁崐鎼佸磹瀹勬噴褰掑炊椤掍礁鍓銈嗗姧缁犳垿鐛姀銈嗙厓閺夌偞澹嗛崝宥嗐亜閺傚灝顏紒杈ㄦ崌瀹曟帒顫濋钘変壕闁告縿鍎抽惌娆撴煕閺囥劌鐏犵紒鐙€鍨堕弻銊╂偆閸屾稑顏� | 闂傚倸鍊搁崐鎼佸磹閻戣姤鍤勯柤鍝ユ暩娴犳氨绱撻崒娆掑厡缂侇噮鍨跺畷婵單旈崘銊ョ亰闂佸搫鍟悧濠囧磹婵犳碍鐓㈡俊顖欒濡叉悂鏌f惔顔煎籍婵﹨娅g划娆撳箰鎼淬垺瀚抽梻浣虹《閺呮盯宕弶鎴殨闁归棿绀侀崘鈧銈嗘尵閸犳捇宕㈤鍛瘈闁汇垽娼ф禒婊堟煟韫囨梻绠炵€规洘绻傞~婵嬫嚋閻㈤潧骞愰梻浣呵归張顒勩€冮崨顔绢洸闁跨噦鎷�]

    • 深度强化学习实战--用OpenAI Gym构建智能体/深度学习系列
      • 作者:(印)普拉文·巴拉尼沙米|责编:吴晋瑜|译者:洪贤斌//汤奎桦
      • 出版社:人民邮电
      • ISBN:9787115561596
      • 出版日期:2023/06/01
      • 页数:170
    • 售价:27.92
  • 内容大纲

        这是一本介绍用OpenAI Gym构建智能体的实战指南。全书先简要介绍智能体和学习环境的一些入门知识,概述强化学习和深度强化学习的基本概念和知识点,然后重点介绍OpenAI Gym的相关内容,随后在具体的Gym环境中运用强化学习算法构建智能体。本书还探讨了这些算法在游戏、自动驾驶领域的应用。
        本书适合想用OpenAI Gym构建智能体的读者阅读,也适合对强化学习和深度强化学习感兴趣的读者参考。读者应具备一定的Python编程基础。
  • 作者介绍

  • 目录

    第1章  智能体与学习环境入门
      1.1  智能体简介
      1.2  学习环境
      1.3  OpenAI Gym简介
      1.4  理解OpenAI Gym的主要特性
        1.4.1  简单的环境接口
        1.4.2  可比较与可复现
        1.4.3  进程可监控
      1.5  OpenAI Gym工具包的作用
      1.6  创建第一个OpenAI Gym环境
      1.7  小结
    第2章  强化学习和深度强化学习
      2.1  强化学习简介
      2.2  直观理解人工智能的含义和内容
        2.2.1  监督学习
        2.2.2  非监督学习
        2.2.3  强化学习
      2.3  强化学习实战
        2.3.1  智能体
        2.3.2  奖励
        2.3.3  环境
        2.3.4  状态
        2.3.5  模型
        2.3.6  值函数
        2.3.7  策略
      2.4  马尔可夫决策过程
      2.5  动态规划
      2.6  蒙特卡洛学习和时序差分学习
      2.7  SARSA和Q-Learning
      2.8  深度强化学习
      2.9  强化学习和深度强化学习算法的实践应用
      2.10  小结
    第3章  开启OpenAI Gym和深度强化学习之旅
      3.1  代码库、设置和配置
        3.1.1  先决条件
        3.1.2  创建conda环境
        3.1.3  最小化安装——快捷简便的方法
        3.1.4  完整安装OpenAI Gym学习环境
      3.2  安装深度强化学习所需的工具和库
        3.2.1  安装必备的系统软件包
        3.2.2  安装CUDA
        3.2.3  安装PyTorch
      3.3  小结
    第4章  探索Gym及其功能
      4.1  探索环境列表和术语
        4.1.1  术语
        4.1.2  探索Gym环境
      4.2  理解Gym接口
      4.3  Gym中的空间
      4.4  小结

    第5章  实现第一个智能体—解决过山车问题
      5.1  了解过山车问题
      5.2  从零开始实现Q-Learning智能体
        5.2.1  Q-Learning回顾
        5.2.2  使用Python和NumPy实现Q-Learning智能体
      5.3  在Gym中训练强化学习智能体
      5.4  测试并记录智能体的性能
      5.5  一个简单且完整的Q-Learner实现——过山车问题的解决方案
      5.6  小结
    第6章  用深度Q-Learning实现最优化控制智能体
      6.1  优化Q-Learning智能体
        6.1.1  用神经网络近似Q函数
        6.1.2  经验回放
        6.1.3  重温ε-贪婪动作策略
      6.2  实现一个深度Q-Learning智能体
        6.2.1  用PyTorch实现一个深度卷积Q网络
        6.2.2  使用目标Q网络稳定智能体的学习
        6.2.3  记录和可视化智能体的学习过程
        6.2.4  管理超参数和配置参数
        6.2.5  用完整的深度Q-Learner处理输入为原始像素的复杂问题
      6.3  Atari Gym环境
      6.4  训练深度Q-Learner玩Atari游戏
        6.4.1  整合一个完整的深度Q-Learner
        6.4.2  超参数
        6.4.3  启动训练过程
        6.4.4  在Atari游戏中测试深度Q-Learner的性能
      6.5  小结
    第7章  创建自定义OpenAI Gym环境——CARLA
      7.1  理解Gym环境结构
        7.1.1  为自定义Gym环境实现创建模板
        7.1.2  在OpenAI Gym环境中注册自定义环境
      7.2  创建与OpenAI Gym兼容的CARLA环境
        7.2.1  配置和初始化
        7.2.2  实现reset方法
        7.2.3  为CARLA环境实现step函数
        7.2.4  测试CARLA Gym环境
      7.3  小结
    第8章  用深度演员-评论家算法实现无人驾驶智能体
      8.1  深度n步优势演员-评论家算法
        8.1.1  策略梯度
        8.1.2  演员-评论家算法
        8.1.3  优势演员-评论家算法
        8.1.4  n步优势演员-评论家算法
        8.1.5  深度n步优势演员-评论家算法
      8.2  实现深度n步优势演员-评论家智能体
        8.2.1  初始化演员和评论家网络
        8.2.2  用当前策略获取n步经验
        8.2.3  计算演员和评论家的损失
        8.2.4  更新演员-评论家模型
        8.2.5  用于保存/加载、记录、可视化和监视的工具

        8.2.6  扩展——异步深度n步优势演员-评论家
      8.3  训练一个“聪明”的自动驾驶智能体
        8.3.1  训练和测试深度n步优势演员-评论家智能体
        8.3.2  训练智能体在CARLA中驾驶车辆
      8.4  小结
    第9章  探索学习环境全景——Roboschool、Gym Retro、StarCraft-Ⅱ和DeepMind Lab
      9.1  Gym接口兼容的环境
        9.1.1  Roboschool
        9.1.2  Gym Retro
      9.2  其他基于Python的开源学习环境
        9.2.1  星际争霸Ⅱ—PySC
        9.2.2  DeepMind Lab
      9.3  小结
    第10章  探索学习算法世界——DDPG(演员-评论家)、PPO(策略梯度)、Rainbow(基于值)
      10.1  深度确定性策略梯度
      10.2  近端策略优化
      10.3  Rainbow
        10.3.1  核心概念
        10.3.2  优点及应用简要总结
      10.4  小结