濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柣鎴f閺嬩線鏌涘☉姗堟敾闁告瑥绻橀弻锝夊箣閿濆棭妫勯梺鍝勵儎缁舵岸寮婚悢鍏尖拻閻庨潧澹婂Σ顔剧磼閹冣挃缂侇噮鍨抽幑銏犫槈閵忕姷顓洪梺缁樺灥濡盯宕濋姘f斀闁绘劖娼欓悘锕傛煟閻曞倻鐣电€规洘娲熼幃銏ゅ礂閼测晛甯惧┑鐘垫暩閸嬫盯鎮樺┑瀣婵ǹ鍩栭悡鐔煎箹閹碱厼鏋涚€殿噮鍠楅幈銊︾節閸愨斂浠㈤悗瑙勬礃椤ㄥ﹪骞婇弽顓炵厴闁割煈鍠曞▽顏堟⒒閸屾瑧顦﹂柟纰卞亰楠炲﹨绠涢弴鐐茬亰閻庡厜鍋撻柛鏇ㄥ墮娴犲ジ姊虹紒妯虹伇婵☆偄瀚伴幏鎴︽偄閸忚偐鍘繝銏e煐缁嬫捇鎮鹃柆宥嗙厓鐟滄粓宕滃☉銏犳瀬濠电姵鑹鹃拑鐔兼煏婵炲灝鍔楅柡鈧禒瀣厱闁斥晛鍟╃欢閬嶆煃瑜滈崜姘躲€冩繝鍥ц摕闁挎稑瀚ч崑鎾绘晲鎼粹€茬敖闂侀潧妫欑敮鐐垫閹烘挻缍囬柕濞垮劜鐠囩偤姊虹化鏇熸澒闁稿鎸搁—鍐Χ閸℃鐟ㄩ柣搴㈠嚬閸撴稒绔熼弴銏犵闁稿繒鍘у鍨攽閳藉棗鐏犻柣蹇旂箖缁傚秷銇愰幒鎾跺幈闂佺粯鍔曢悘姘跺汲椤掑嫭鐓涚€光偓鐎n剛袦闂佽鍠掗弲鐘诲箖濠婂吘鐔哄寲閺囩偘澹曢梺鍛婂姦閸犳宕戦敐澶嬬厓鐟滄粓宕滈悢鐓庢瀬闁告劦鍠栭悞鍨亜閹哄棗浜鹃悗瑙勬尭鐎氭澘顫忓ú顏勫窛濠电姴瀚уΣ鍫ユ煛鐎e吀绨婚棁澶嬬節婵犲倸顏柣顓熷浮閺岋紕浠︾拠鎻掝潎閻庢鍠楀ḿ娆掔亙闂侀€炲苯澧紒鍌氱У閵堬綁宕橀埡浣插亾閸偆绠鹃柛顐g箘娴犮垽鏌$€n偆鈽夋い顓″劵椤︽煡姊虹敮顔剧М闁绘侗鍣i獮瀣晝閳ь剟锝為崨瀛樼厽婵妫楁禍婵嬫煛閸屾浜鹃梻鍌欐祰椤曆囧礄閻e瞼绀婇柛鈩冡缚椤╂煡鎮归悜妯忣厾绱撳顑芥斀闁绘ê寮舵径鍕煃闁垮鐏╃紒杈ㄦ尰閹峰懘宕楁径瀣剁礄婵$偑鍊曠换鎰偓姘卞厴瀹曠敻寮撮姀鈥充化闂佹儳绻楅~澶屽椤忓牊鐓欓柣鎴烇供濞堟梻绱掗悩宕囨创闁哄矉绲借灃闁逞屽墴閹囧礃椤旇偐顔嗗┑鐐叉▕娴滄繈鍩涢幒妤佺厱閻忕偟鍋撻惃鎴濐熆瑜庣粙鎾舵閹烘柡鍋撻敐搴′簻婵炴惌鍠楅〃銉╂倷鐎电ǹ鈷屽Δ鐘靛仜濞差參銆佸鈧幃鈺佲枔閸喗娅楅梻浣筋嚙濞寸兘骞婇幘瀵哥彾濠电姴娲ょ粣妤呮煛瀹ュ骸骞樼€规挷绶氶弻鈥愁吋鎼粹€崇闂佺粯鎸鹃崰鏍蓟閵娿儮鏀介柛鈩兠▍锝呪攽闄囩亸娆戝垝椤栫偛桅闁告洦鍨奸弫鍐煥濠靛棙宸濋柣锝呫偢濮婃椽宕烽鐔锋畬闁诲孩鐭崡鎶界嵁閺嶎兙浜归柟鐑樻尭娴狀參姊洪崫鍕垫Ъ婵炲娲熼、娆撳炊椤掍讲鎷婚梺绋挎湰閼归箖鍩€椤掑嫷妫戞繛鍡愬灩椤繄鎹勯搹鐟板Е婵$偑鍊栫敮鎺楀磹閸涘﹦顩锋繝濠傜墛閻撶姵绻涢懠棰濆殭闁诲骏绻濋弻锟犲川閺夎法鍘柣搴濈祷閸嬫劙鍩€椤掍胶鈯曞畝锝呮健瀹曘垽鎮欓璺ㄧ畾闂侀潧鐗嗙换鎺楁偩閾忣偆绠惧璺侯儐缁€鍫ユ煠濞差亙鎲剧€规洜枪铻栧ù锝呮惈鐢箖姊绘担瑙勫仩闁稿寒鍨跺畷婵堜沪閻愵剙寮块悗骞垮劚濡厼鈻撴禒瀣厽闁归偊鍘界紞鎴炵箾閹碱厼鏋熸い銊e劦閹瑥顔忛鐓庡闂備浇顕栭崰妤冨垝閹惧磭鏆﹂柛妤冨剱濞笺劑鏌涢埄鍐垮叕缂佽鲸鐟╁濠氬磼濮橆兘鍋撻幖浣哥9闁归棿绀佺壕鐟邦渻鐎n亝鎹i柣顓炴閵嗘帒顫濋敐鍛婵°倗濮烽崑鐐烘偋閻樻眹鈧線寮村杈┬㈤梻浣规偠閸庢椽宕滈敃鍌氭瀬鐎广儱顦伴悡鐔兼煙闁箑骞楃紓宥嗗灴閺屽秷顧侀柛鎾寸箞瀹曟椽寮介锝呭簥濠电娀娼ч鍡浰夐崼鐔虹闁瑰鍋犳竟妯汇亜閿濆懏鎯堟い顏勫暣婵″爼宕橀妸銉ヮ潥闁诲骸鍘滈崑鎾绘煙闂傚顦﹂柦鍐枑缁绘盯骞嬮弮鈧崳浼存煃瑜滈崜銊х不閹捐崵宓侀悗锝庝簴閺€浠嬫煕閵夈垺娅冪紒顭戝枛閳规垿鎮╁▓鎸庢瘜闂佸憡鎸荤换鍡涘Φ閹版澘绀冩い鏃囨娴滈亶姊虹憴鍕妞ゆ泦鍥ㄥ珔闁绘柨鍚嬮悡銉╂煟閺傛寧鎯堢€涙繄绱撴担鎻掍壕闂佸憡鍔﹂崰妤呮偂閸愵喗鐓曟繝闈涙椤忊晠鏌嶈閸撴岸骞冮崒姘煎殨闁告劕寮弮鍫濆窛妞ゆ棁顫夌€氱厧鈹戦悙瀛樼稇闁告艾顑夐幃鐤槾缂侇喗妫冮、妤呭焵椤掑嫭绠掓繝鐢靛Т閿曘倖顨ラ崨濠冩珷闁绘鐗呯换鍡涙煕濞嗗浚妲稿┑顔肩У椤ㄣ儵鎮欓弶鎴犵懆闁剧粯鐗犻弻宥堫檨闁告挻宀稿畷鏇㈩敃閿旂晫鍘介梺缁樻煥閹芥粓鎯屾繝鍥ㄢ拺閻㈩垼鍠氶崚鐗堛亜閺囶亞绉鐐查叄閹稿﹥寰勭仦钘夌闂傚倷绀侀幉锟犲礉閿旂晫顩查柣鎰劋閺咁剚绻濇繝鍌滃闁绘挻绋戦…璺ㄦ崉閻氭潙濮涙繝鈷€鍕伌闁哄本鐩顒傛崉閵婃剬鍥ㄥ癄闁绘柨鍚嬮悡鏇熴亜閹邦喖孝闁告梹绮撻弻锝夊箻鐎电硶妲堥梻鍥ь樀閺屻劌鈹戦崱娆忊拡濠电偛鍚嬮崝妤呭焵椤掑喚娼愭繛鍙夌墵閹矂宕掗悙鑼舵憰闂佹枼鏅涢崯顖涘垔閹绢喗鍋℃繛鍡楃箰椤忊晝鐥悙顒€鈻曟慨濠勫劋濞碱亪骞嶉鐓庮瀴闂備礁婀遍幊鎾趁洪鐑嗗殨妞ゆ劧绠戠粻鑽ょ磽娴h偂鎴濃枍閵忋倖鈷戦悹鎭掑妼濞呮劙鏌熼崙銈嗗 [闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳婀遍埀顒傛嚀鐎氼參宕崇壕瀣ㄤ汗闁圭儤鍨归崐鐐差渻閵堝棗绗傜紒鈧笟鈧畷婊堫敇閻戝棙瀵岄梺闈涚墕濡鎱ㄨ缁辨帡鎮╅崘鑼紝闂佺粯渚楅崳锝嗘叏閳ь剟鏌曢崼婵囶棤闁告ɑ鎹囬弻鈩冨緞鐏炴垝娌繝銏㈡嚀濡繂鐣峰┑鍡╁悑闁糕剝鍔掔花濠氭⒑閸濆嫬鈧悂鎮樺┑瀣垫晜妞ゆ劑鍊楃壕濂稿级閸稑濡界€规洖鐬奸埀顒冾潐濞叉ḿ鏁幒妤嬬稏婵犻潧顑愰弫鍕煢濡警妲峰瑙勬礋濮婃椽宕ㄦ繝鍕窗闂佺ǹ瀛╂繛濠囧箚鐏炶В鏋庨柟鎯ь嚟閸橀亶姊洪崫鍕偍闁告柨鐭傞幃姗€鎮╅悽鐢碉紲闂佺粯鐟㈤崑鎾绘煕閵娿儳鍩g€殿喖顭锋俊鎼佸煛閸屾矮绨介梻浣呵归張顒傜矙閹达富鏁傞柨鐕傛嫹 | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柟闂寸绾惧綊鏌熼梻瀵割槮缁炬儳缍婇弻锝夊箣閿濆憛鎾绘煕閵堝懎顏柡灞诲€濆畷顐﹀Ψ閿旇姤鐦庡┑鐐差嚟婵潧顫濋妸褎顫曢柟鎹愵嚙绾惧吋绻涢崱妯虹瑨闁告﹫绱曠槐鎾寸瑹閸パ勭彯闂佹悶鍔忓▔娑㈡偩瀹勬壋鏀介柛鐙€鍠楀Λ鍐ㄧ暦濮椻偓婵℃悂濡疯閸犲﹪姊婚崒娆戭槮闁圭⒈鍋婂畷顖烆敃閿旇棄浜辨繝鐢靛Т濞层倗澹曢悷鎵虫斀闁绘ê纾。鏌ユ煟閹惧崬鐏ǎ鍥э躬椤㈡稑鈻庨幒婵嗗Τ婵犵鈧啿绾ч柟顔煎€垮濠氭晲閸℃ê鍔呭銈嗘⒒閸樠呯尵瀹ュ應鏀芥い鏃傘€嬫Λ姘箾閸滃啰鎮奸柛鎺撳笒閳诲酣骞樺畷鍥跺敹闂佺懓鍚嬮悾顏堝垂閾忓厜鍋撳顓炩枙婵﹦绮幏鍛存惞楠炲簱鍋撴繝鍥ㄧ厸闁告侗鍠氬ú瀵糕偓瑙勬处閸ㄨ泛顕i崼鏇炵妞ゆ挾鍋為鍧楁⒒娴e摜绉烘俊顐ユ硶缁牊绗熼埀顒€鐣峰鈧崺鈧い鎺嗗亾妞ゎ亜鍟存俊鍫曞幢濡儤娈梻浣告憸婵敻骞戦崶褏鏆﹂柕蹇嬪€ら弫鍌炴煕濞戝崬鐏i柣锕€鐗撳鍝勑ч崶褏浼堝┑鐐板尃閸曨収娴勫┑鐘诧工閻楀﹪鎮¢悢鑲╁彄闁搞儯鍔嶉埛鎺旂磼閻橀潧浠ч柍褜鍓濋~澶娒哄Ο鍏煎床闁稿瞼鍎戠紞鏍ㄧ節闂堟侗鍎愰柛銈咁儔閺岋綁濮€閵堝棙閿Δ鐘靛仦閸旀瑥顫忕紒妯诲闁告盯娼х紞濠傤嚕閻㈠壊鏁嗛柛鏇楁杹閸嬫捇宕橀鐓庣獩濡炪倖姊婚搹搴∶洪幖浣光拺閻犳亽鍔屽▍鎰版煙閸戙倖瀚�]

    • EASY RL(强化学习教程)
      • 作者:编者:王琦//杨毅远//江季|责编:郭媛
      • 出版社:人民邮电
      • ISBN:9787115584700
      • 出版日期:2022/03/01
      • 页数:245
    • 售价:39.96
  • 内容大纲

        强化学习作为机器学习及人工智能领域的一种重要方法,在游戏、自动驾驶、机器人路线规划等领域得到了广泛的应用。
        本书结合了李宏毅老师的“深度强化学习”、周博磊老师的“强化学习纲要”、李科浇老师的“世界冠军带你从零实践强化学习”公开课的精华内容,在理论严谨的基础上深入浅出地介绍马尔可夫决策过程、蒙特卡洛方法、时序差分方法、Sarsa、Q学习等传统强化学习算法,以及策略梯度、近端策略优化、深度Q网络、深度确定性策略梯度等常见深度强化学习算法的基本概念和方法,并以大量生动有趣的例子帮助读者理解强化学习问题的建模过程以及核心算法的细节。
        此外,本书还提供习题解答以及Python代码实现,可以让读者进行端到端、从理论到轻松实践的全生态学习,充分掌握强化学习算法的原理并能进行实战。
        本书适合对强化学习感兴趣的读者阅读,也可以作为相关课程的配套教材。
  • 作者介绍

  • 目录

    第1章  绪论
      1.1  强化学习概述
        1.1.1  强化学习与监督学习
        1.1.2  强化学习的例子
        1.1.3  强化学习的历史
        1.1.4  强化学习的应用
      1.2  序列决策概述
        1.2.1  智能体和环境
        1.2.2  奖励
        1.2.3  序列决策
      1.3  动作空间
      1.4  强化学习智能体的组成部分和类型
        1.4.1  策略
        1.4.2  价值函数
        1.4.3  模型
        1.4.4  强化学习智能体的类型
      1.5  学习与规划
      1.6  探索和利用
      1.7  强化学习实验
        1.7.1  Gym
        1.7.2  MountainCar-v0例子
      1.8  关键词
      1.9  习题
      1.10  面试题
      参考文献
    第2章  马尔可夫决策过程
      2.1  马尔可夫过程
        2.1.1  马尔可夫性质
        2.1.2  马尔可夫过程/马尔可夫链
        2.1.3  马尔可夫过程的例子
      2.2  马尔可夫奖励过程
        2.2.1  回报与价值函数
        2.2.2  贝尔曼方程
        2.2.3  计算马尔可夫奖励过程价值的迭代算法
        2.2.4  马尔可夫奖励过程的例子
      2.3  马尔可夫决策过程
        2.3.1  马尔可夫决策过程中的策略
        2.3.2  马尔可夫决策过程和马尔可夫过程/马尔可夫奖励过程的区别
        2.3.3  马尔可夫决策过程中的价值函数
        2.3.4  贝尔曼期望方程
        2.3.5  备份图
        2.3.6  策略评估
        2.3.7  预测与控制
        2.3.8  动态规划
        2.3.9  使用动态规划进行策略评估
        2.3.10  马尔可夫决策过程控制
        2.3.11  策略迭代
        2.3.12  价值迭代
        2.3.13  策略迭代与价值迭代的区别
        2.3.14  马尔可夫决策过程中的预测和控制总结

      2.4  关键词
      2.5  习题
      2.6  面试题
      参考文献
    第3章  表格型方法
      3.1  马尔可夫决策过程
        3.1.1  有模型
        3.1.2  免模型
        3.1.3  有模型与免模型的区别
      3.2  Q表格
      3.3  免模型预测
        3.3.1  蒙特卡洛方法
        3.3.2  时序差分方法
        3.3.3  动态规划方法、蒙特卡洛方法以及时序差分方法的自举和采样
      3.4  免模型控制
        3.4.1  Sarsa:同策略时序差分控制
        3.4.2  Q学习:异策略时序差分控制
        3.4.3  同策略与异策略的区别
      3.5  使用Q学习解决悬崖寻路问题
        3.5.1  CliffWalking-v0环境简介
        3.5.2  强化学习基本接口
        3.5.3  Q学习算法
        3.5.4  结果分析
      3.6  关键词
      3.7  习题
      3.8  面试题
      参考文献
    第4章  策略梯度
      4.1  策略梯度算法
      4.2  策略梯度实现技巧
        4.2.1  技巧1:添加基线
        4.2.2  技巧2:分配合适的分数
      4.3  REINFORCE:蒙特卡洛策略梯度
      4.4  关键词
      4.5  习题
      4.6  面试题
      参考文献
    第5章  近端策略优化
      5.1  从同策略到异策略
      5.2  近端策略优化
        5.2.1  近端策略优化惩罚
        5.2.2  近端策略优化裁剪
      5.3  关键词
      5.4  习题
      5.5  面试题
      参考文献
    第6章  深度Q网络
      6.1  状态价值函数
      6.2  动作价值函数
      6.3  目标网络

      6.4  探索
      6.5  经验回放
      6.6  深度Q网络算法总结
      6.7  关键词
      6.8  习题
      6.9  面试题
      参考文献
    第7章  深度Q网络进阶技巧
      7.1  双深度Q网络
      7.2  竞争深度Q网络
      7.3  优先级经验回放
      7.4  在蒙特卡洛方法和时序差分方法中取得平衡
      7.5  噪声网络
      7.6  分布式Q函数
      7.7  彩虹
      7.8  使用深度Q网络解决推车杆问题
        7.8.1  CartPole-v0简介
        7.8.2  深度Q网络基本接口
        7.8.3  回放缓冲区
        7.8.4  Q网络
        7.8.5  深度Q网络算法
        7.8.6  结果分析
      7.9  关键词
      7.10  习题
      7.11  面试题
      参考文献
    第8章  针对连续动作的深度Q网络
      8.1  方案1:对动作进行采样
      8.2  方案2:梯度上升
      8.3  方案3:设计网络架构
      8.4  方案4:不使用深度Q网络
      8.5  习题
    第9章  演员-评论员算法
      9.1  策略梯度回顾
      9.2  深度Q网络回顾
      9.3  演员-评论员算法
      9.4  优势演员-评论员算法
      9.5  异步优势演员-评论员算法
      9.6  路径衍生策略梯度
      9.7  与生成对抗网络的联系
      9.8  关键词
      9.9  习题
      9.10  面试题
    第10章  深度确定性策略梯度
      10.1  离散动作与连续动作的区别
      10.2  深度确定性策略梯度
      10.3  双延迟深度确定性策略梯度
      10.4  使用深度确定性策略梯度解决倒立摆问题
        10.4.1  Pendulum-v1简介
        10.4.2  深度确定性策略梯度基本接口

        10.4.3  Ornstein-Uhlenbeck噪声
        10.4.4  深度确定性策略梯度算法
        10.4.5  结果分析
      10.5  关键词
      10.6  习题
      10.7  面试题
      参考文献
    第11章  稀疏奖励
      11.1  设计奖励
      11.2  好奇心
      11.3  课程学习
      11.4  分层强化学习
      11.5  关键词
      11.6  习题
      参考文献
    第12章  模仿学习
      12.1  行为克隆
      12.2  逆强化学习
      12.3  第三人称视角模仿学习
      12.4  序列生成和聊天机器人
      12.5  关键词
      12.6  习题
      参考文献
    第13章  AlphaStar论文解读
      13.1  AlphaStar以及背景简介
      13.2  AlphaStar的模型输入和输出是什么呢?——环境设计
        13.2.1  状态(网络的输入)
        13.2.2  动作(网络的输出)
      13.3  AlphaStar的计算模型是什么呢?——网络结构
        13.3.1  输入部分
        13.3.2  中间过程
        13.3.3  输出部分
      13.4  庞大的AlphaStar如何训练呢?——学习算法
        13.4.1  监督学习
        13.4.2  强化学习
        13.4.3  模仿学习
        13.4.4  多智能体学习/自学习
      13.5  AlphaStar实验结果如何呢?——实验结果
        13.5.1  宏观结果
        13.5.2  其他实验(消融实验)
      13.6  关于AlphaStar的总结
      参考文献