-
内容大纲
本书使用受现实世界商业和行业问题启发的实际示例来讲授强化学习技术的相关知识。
本书分为四部分:第一部分涵盖强化学习的必要背景,包括定义、数学基础和强化学习解决方案的概述;第二部分深入介绍最先进的强化学习算法(规模化的深度Q-学习、基于策略的方法、基于模型的方法、多智能体强化学习等),包括每种算法的优缺点;第三部分介绍强化学习中的高级技术,包括机器教学、泛化和域随机化、元强化学习等主题,还涵盖强化学习中有助于改进模型的各种高级主题;第四部分讲解强化学习的各种应用,例如自主系统、供应链管理、营销和金融、智慧城市与网络安全等,并讨论强化学习领域的一些挑战及未来方向。
学完本书,你将掌握如何训练和部署自己的强化学习智能体来解决强化学习问题。 -
作者介绍
埃内斯·比尔金(Enes Bilgin),微软自主系统部门的高级人工智能工程师和技术主管。他是一名机器学习与运筹学从业者和研究员,在使用Python、TensorFlow和Ray/RLlib为顶级科技公司构建生产系统和模型方面拥有丰富的经验。他拥有波士顿大学系统工程硕士学位和博士学位,以及比尔肯特大学工业工程学士学位。他曾在亚马逊担任研究科学家,并在AMD担任过运筹学研究科学家,还在得克萨斯大学奥斯汀分校的麦库姆斯商学院和得克萨斯州立大学的英格拉姆工程学院担任过兼职教师。 -
目录
译者序
前言
作者简介
审校者简介
第一部分 强化学习基础
第1章 强化学习简介
1.1 为什么选择强化学习
1.2 机器学习的三种范式
1.2.1 监督学习
1.2.2 无监督学习
1.2.3 强化学习
1.3 强化学习应用领域和成功案例
1.3.1 游戏
1.3.2 机器人技术和自主系统
1.3.3 供应链
1.3.4 制造业
1.3.5 个性化和推荐系统
1.3.6 智慧城市
1.4 强化学习问题的元素
1.4.1 强化学习概念
1.4.2 将井字棋游戏建模为强化学习问题
1.5 设置强化学习环境
1.5.1 硬件要求
1.5.2 操作系统
1.5.3 软件工具箱
1.6 总结
1.7 参考文献
第2章 多臂老虎机
2.1 探索–利用权衡
2.2 什么是多臂老虎机问题
2.2.1 问题定义
2.2.2 一个简单多臂老虎机问题的实验
2.3 案例研究:在线广告
2.4 A/B/n测试
2.4.1 符号
2.4.2 应用于在线广告场景
2.4.3 A/B/n测试的优缺点
2.5 ε-贪心策略行动
2.5.1 应用于在线广告场景
2.5.2 ε-贪心策略行动的优缺点
2.6 使用置信上界进行行动选择
2.6.1 应用于在线广告场景
2.6.2 使用置信上界的优缺点
2.7 汤普森(后)采样
2.7.1 应用于在线广告场景
2.7.2 汤普森采样的优缺点
2.8 总结
2.9 参考文献
第3章 上下文多臂老虎机
第4章 马尔可夫决策过程的制定
第5章 求解强化学习问题
第二部分 深度强化学习
第6章 规模化的深度Q-学习
第7章 基于策略的方法
第8章 基于模型的方法
第9章 多智能体强化学习
第三部分 强化学习中的高级主题
第10章 机器教学
第11章 泛化和域随机化
第12章 元强化学习
第13章 其他高级主题
第四部分 强化学习的应用
第14章 自主系统
第15章 供应链管理
第16章 营销、个性化和金融
第17章 智慧城市与网络安全
第18章 强化学习领域的挑战和未来方向
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...