欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 深度强化学习原理与实践
      • 作者:陈喆|责编:白立军//常建丽
      • 出版社:清华大学
      • ISBN:9787302660705
      • 出版日期:2024/05/01
      • 页数:230
    • 售价:23.6
  • 内容大纲

        本书从原理的角度,力求讲解清楚深度学习、强化学习、深度强化学习中的一些精选方法,并从实践的角度,通过一系列循序渐进的原创实验,引领读者独立编程实现这些方法,以期为读者精通深度强化学习并应用深度强化学习方法解决实际问题奠定坚实基础。
        本书不仅适合计算机科学与技术、人工智能、物联网工程、数据科学与大数据、软件工程、通信工程、电子信息、机器人工程、自动化、智能制造等相关专业高年级本科生及研究生教学与自学使用,也适合机器学习等领域的从业者、科研人员及爱好者自学与参考使用。
  • 作者介绍

        陈喆,美国田纳西理工大学博士。2003年硕士毕业后在UT斯达康、意法半导体等企业工作多年。2011年博士毕业后在东北大学物联网工程专业任副教授、硕士研究生导师。曾任东北大学物联网工程研究所副所长、无锡(滨湖)国家传感信息中心副主任(挂职),曾在美国北卡罗来纳州立大学访学。主要研究方向包括物联网无线通信、机器学习、认知无线电等。讲授机器学习、物联网技术、物联网通信技术、无线传感网络概论、无线传感网络实验、创业基础、创新创业活动、High-Performance Embedded System Design等课程。编著《物联网无线通信原理与实践》。多次被学生评选为“我最喜爱的老师”,所负责的课程多次被学生评选为“我最喜爱的专业课程”。
  • 目录

    第1章  引言
      1.1  深度强化学习及其简史
      1.2  深度强化学习的应用领域
      1.3  深度强化学习方法的实现
        1.3.1  NumPy库和Matplotlib库
        1.3.2  PyTorch框架
      1.4  本章实验解析
      1.5  本书各章联系
      1.6  本章小结
      1.7  思考与练习
    第2章  从神经网络到深度学习
      2.1  神经网络回顾
        2.1.1  神经网络的推测过程
        2.1.2  神经网络的训练过程
        2.1.3  神经网络实践
      2.2  从神经网络到深度神经网络
      2.3  深度神经网络
        2.3.1  深度神经网络的推测过程
        2.3.2  深度神经网络的训练过程
        2.3.3  反向模式自动微分
        2.3.4  深度神经网络实践及分析
      2.4  卷积神经网络
        2.4.1  卷积层和合并层
        2.4.2  卷积神经网络实践
      2.5  循环神经网络
      2.6  本章实验解析
      2.7  本章小结
      2.8  思考与练习
    第3章  强化学习基础
      3.1  强化学习概述
        3.1.1  多老虎机问题
        3.1.2  利用与探索
        3.1.3  强化学习的要素
      3.2  有限马尔可夫决策过程
        3.2.1  状态与马尔可夫性
        3.2.2  什么是有限马尔可夫决策过程
        3.2.3  收益与策略
      3.3  求解MDP
        3.3.1  贝尔曼方程与贝尔曼最优方程
        3.3.2  价值迭代
        3.3.3  策略评估
        3.3.4  策略迭代
        3.3.5  广义策略迭代
      3.4  本章实验解析
      3.5  本章小结
      3.6  思考与练习
    第4章  行动价值方法
      4.1  行动价值与最优行动价值
        4.1.1  行动价值
        4.1.2  最优行动价值

      4.2  蒙特卡洛方法
      4.3  Q学习
      4.4  Dyna-Q
      4.5  使用监督学习方法推测最优行动价值的极限值
      4.6  使用深度神经网络推测最优行动价值的极限值
      4.7  本章实验解析
      4.8  本章小结
      4.9  思考与练习
    第5章  策略梯度方法
      5.1  策略梯度基本方法
      5.2  蒙特卡洛策略梯度方法
        5.2.1  各个行动的蒙特卡洛策略梯度方法
        5.2.2  单个行动的蒙特卡洛策略梯度方法
        5.2.3  平移的蒙特卡洛策略梯度方法
      5.3  行动评价方法
      5.4  不完全观测
      5.5  本章实验解析
      5.6  本章小结
      5.7  思考与练习
    附录A  实验参考程序及注释
    参考文献