欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 强化学习(人工智能如何知错能改)/人工智能超入门丛书
      • 作者:龚超//王冀//梁霄//贵宁|责编:雷桐辉
      • 出版社:化学工业
      • ISBN:9787122452825
      • 出版日期:2024/08/01
      • 页数:234
    • 售价:27.92
  • 内容大纲

        “人工智能超入门丛书”致力于面向人工智能各技术方向零基础的读者,内容涉及数据素养,机器学习、视觉感知、情感分析、搜索算法、强化学习、知识图谱、专家系统等方向。本丛书体系完整、内容简洁、语言通俗,综合介绍了人工智能相关知识,并辅以程序代码解决问题,使得零基础的读者能够快速入门。
        《强化学习:人工智能如何知错能改》是“人工智能超入门丛书”中的分册,以科普的形式讲解了强化学习的核心知识,内容生动有趣,带领读者走进强化学习的世界。本书包含强化学习方向的基础知识,如动态规划、时序差分等,让读者在开始学习时对强化学习有初步的认识;之后,通过对马尔可夫决策过程及贝尔曼方程的解读,逐渐过渡到强化学习的关键内容;同时,本书也重点解析了策略迭代与价值迭代两种核心算法,也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了深度剖析。本书内容结构完整、逻辑清晰、层层递进,并配有相关实例与代码,让读者在阅读学习过程中能够加深理解。
        本书适合强化学习及人工智能方向的初学者阅读学习,也可供高等院校人工智能及计算机类专业的师生参考。
  • 作者介绍

  • 目录

    第1章  强化学概述
      1.1  什么是强化学
        1.1.1  初识强化学
        1.1.2  强化学的关键要素
        1.1.3  监督、无监督与强化学
      1.2  三条主线
        1.2.1  试错
        1.2.2  动态规划
        1.2.3  时序差分
      1.3  强化学的方法与应用
        1.3.1  强强联合之深度强化学
        1.3.2  强化学的跨界赋能
        1.3.3  强化学的分类
    第2章  马尔可夫与贝尔曼方程
      2.1  “随机”那些事儿
        2.1.1  概率的基本概念
        2.1.2  网格迷宫的探索
        2.1.3  探索的策略与奖励
        2.1.4  探索的足迹
      2.2  马尔可夫大家族
        2.2.1  马尔可夫过程
        2.2.2  马尔可夫奖励过程
        2.2.3  马尔可夫决策过程
      2.3  贝尔曼方程
        2.3.1  值函数与动作值函数
        2.3.2  贝尔曼方程
        2.3.3  贝尔曼方程
    第3章  动态规划
      3.1  动态规划基础与环境
        3.1.1  动态规划基础
        3.1.2  环境:冰湖
      3.2  策略迭代算法
        3.2.1  原理
        3.2.2  代码
      3.3  值迭代算法
        3.3.1  原理
        3.3.2  代码
    第4章  蒙卡洛
      4.1  随机变量的数字征
        4.1.1  期望
        4.1.2  方差
      4.2  蒙卡洛方法与应用
        4.2.1  圆面积的估计
        4.2.2  均值估计
      4.3  蒙卡洛与强化学
        4.3.1  原理
        4.3.2  环境:21点
        4.3.3  代码
    第5章  时序差分
      5.1  时序差分

        5.1.1  时序差分基础
        5.1.2  环境:悬崖漫步
      5.2  Sarsa算法
        5.2.1  原理
        5.2.2  代码
      5.3  Q-Learning算法
        5.3.1  原理
        5.3.2  代码
    第6章  深度强化学
      6.1  DQN入门
        6.1.1  DQN的基本概念
        6.1.2  环境:车杆
      6.2  BP经网络+强化学
        6.2.1  原理
        6.2.2  代码
      6.3  卷积经网络+强化学
        6.3.1  原理
        6.3.2  代码
      6.4  DQN的改进
    第7章  策略学
      7.1  策略梯度算法
        7.1.1  策略梯度原理
        7.1.2  REINFORCE算法
        7.1.3  代码
      7.2  Actor-Critic算法
        7.2.1  原理
        7.2.2  环境:LunarLander
        7.2.3  代码
      7.3  其他基于策略的算法
    附录
      附录A  环境设置与行为探索
        A.1  Gym库与环境设置
        A.2  具有人类偏好的多智能体强化学
      附录B  博弈与策略
        B.1  什么是博弈
        B.2  混合策略博弈
        B.3  序贯博弈
        B.4  无限博弈与有限博弈
      附录C  收益衡量
        C.1  理性收益:期望值
        C.2  效用收益:期望效用
        C.3  情感收益:前景理论