濠电姷鏁告慨鐑藉极閸涘﹥鍙忛柣鎴f閺嬩線鏌熼梻瀵割槮缁惧墽绮换娑㈠箣閻戝棛鍔┑鐐村灦閻燂箓宕曢悢鍏肩厪濠电偛鐏濋崝姘舵煟鎼搭喖寮慨濠冩そ瀹曟鎳栭埞鍨沪闂備礁鎼幊蹇曞垝瀹€鍕仼闁绘垼妫勯拑鐔兼煏婢舵稓鐣遍柍褜鍓涢弫濠氬蓟閵娿儮鏀介柛鈩冧緱閳ь剚顨婇弻锛勨偓锝庡亞閵嗘帞绱掓潏銊ユ诞闁糕斁鍋撳銈嗗笒鐎氼剛澹曢崗鍏煎弿婵☆垰鐏濇禍褰掓煕閻愬灚鏆柡宀嬬秮閹晠鎮滃Ο绯曞亾閸愵喗鍋i柍褜鍓熼弫鍐焵椤掆偓瀹撳嫰姊洪崨濠勨槈閺嬵亜霉濠婂嫮鐭掗柡灞诲姂瀵潙螖閳ь剚绂嶆ィ鍐╁€垫繛鍫濈仢閺嬫稑顭胯闁帮綁鐛幋锕€顫呴柣姗嗗亝閺傗偓闂佽鍑界紞鍡樼鐠烘í缂氬┑鐘叉处閳锋垹绱撴担鍏夋(妞ゅ繐瀚烽崵鏇㈡偣閾忚纾柟鐑橆殔缁犳盯鏌eΔ鈧悧鍐箯濞差亝鈷掗柛灞炬皑婢ф稓绱掔€n偄娴鐐寸墵楠炲洭顢橀悩娈垮晭闁诲海鎳撴竟濠囧窗閺嶎厾宓侀柡宥庡幗閻撶喖鏌ㄥ┑鍡樺櫣婵¤尙绮妵鍕敃閿濆洨鐣奸梺鍦嚀鐎氫即骞栬ぐ鎺撳仭闁哄娉曢鍥⒒閸屾艾鈧娆㈠璺虹劦妞ゆ帒鍊告禒婊堟煠濞茶鐏¢柡鍛板煐鐎佃偐鈧稒岣块崢鐐繆閵堝繒鐣虫繛澶嬫礈閼洪亶宕稿Δ浣哄帾闂佹悶鍎崝灞炬叏瀹ュ棭娈介柣鎰綑濞搭喗顨ラ悙宸剶闁诡喗绮撳畷鍗烆潨閸℃﹫绱欓梻鍌氬€搁崐鎼佸磹妞嬪海鐭嗗〒姘e亾妤犵偞鐗犻、鏇氱秴闁搞儺鍓﹂弫宥夋煟閹邦厽缍戦柍褜鍓濋崺鏍崲濠靛顥堟繛鎴炶壘椤e搫顪冮妶鍐ㄥ姕鐎光偓閹间礁钃熸繛鎴旀噰閳ь剨绠撻獮瀣攽閸モ晙绨┑鐘殿暯閸撴繆銇愰崘顔藉亱闁规崘顕ч拑鐔兼煥閻斿搫孝缂佲偓閸愵喗鐓冮柛婵嗗閳ь剚鎮傚鍐参旈崨顔规嫼婵炴潙鍚嬮悷褏绮旈鈧湁婵犲﹤楠告晶鐗堜繆閸欏濮嶆鐐村笒铻栭柍褜鍓氶崕顐︽煟閻斿摜鐭婇梺甯到椤曪綁骞庨挊澶屽幐闂佸憡鍔︽禍鐐烘晬濠婂牊鐓涘璺猴功婢ф垿鏌涢弬璺ㄐч挊鐔兼煕椤愮姴鍔滈柣鎾寸☉闇夐柨婵嗙墱濞兼劗鈧娲栭惌鍌炲蓟閳╁啯濯撮悷娆忓绾炬娊姊烘潪鎵妽闁圭懓娲顐﹀箻缂佹ɑ娅㈤梺璺ㄥ櫐閹凤拷 [闂傚倸鍊搁崐鎼佸磹閹间礁纾圭€瑰嫭鍣磋ぐ鎺戠倞妞ゆ帊绀侀崜顓烆渻閵堝棗濮х紒鐘冲灴閻涱噣濮€閵堝棛鍘撻柡澶屽仦婢瑰棝宕濆鍡愪簻闁哄倸鐏濋顐ょ磼鏉堛劍宕岀€规洘甯掗~婵嬵敄閽樺澹曢梺鍛婄缚閸庢娊鎯屽▎鎾寸厱闁哄洢鍔岄悘鐘电磼閻欌偓閸ㄥ爼寮婚妸鈺傚亞闁稿本绋戦锟� | 闂傚倸鍊搁崐鎼佸磹閹间礁纾归柣鎴eГ閸ゅ嫰鏌ら崫銉︽毄濞寸姵姘ㄧ槐鎾诲磼濞嗘帒鍘$紓渚囧櫘閸ㄨ泛鐣峰┑鍠棃宕橀妸銉т喊闂備礁鎼崯顐︽偋婵犲洤纾瑰┑鐘崇閻撱垺淇婇娆掝劅婵″弶鎮傞弻锝嗘償椤旂厧绫嶅┑顔硷龚濞咃絿鍒掑▎鎾崇閹兼番鍨虹€氭娊姊绘担铏广€婇柡鍛洴瀹曨垶寮堕幋顓炴闂佸綊妫跨粈渚€宕橀埀顒€顪冮妶鍡樺暗闁哥姵鎹囧畷銏ゎ敂閸涱垳鐦堥梺姹囧灲濞佳勭濠婂牊鐓熼煫鍥ㄦ⒒缁犵偟鈧娲樼换鍌烇綖濠靛鍤嬮柣銏ゆ涧楠炴劙姊绘担鍛靛綊寮甸鍕┾偓鍐川椤旂虎娲搁梺璺ㄥ櫐閹凤拷]

    • 大语言模型(原理应用与优化)/智能系统与技术丛书
      • 作者:苏之阳//王锦鹏//姜迪//宋元峰|责编:杨福川//陈洁
      • 出版社:机械工业
      • ISBN:9787111762768
      • 出版日期:2024/09/01
      • 页数:245
    • 售价:35.6
  • 内容大纲

        这是一本从工程化角度讲解大语言模型的核心技术、构建方法与前沿应用的著作。首先从语言模型的原理和大模型的基础构件入手,详细梳理了大模型技术的发展脉络,深入探讨了大模型预训练与对齐的方法;然后阐明了大模型训练中的算法设计、数据处理和分布式训练的核心原理,展示了这一系统性工程的复杂性与实现路径。
        除了基座模型的训练方案,本书还涵盖了大模型在各领域的落地应用方法,包括低参数量微调、知识融合、工具使用和自主智能体等,展示了大模型在提高生产力和创造性任务中的卓越性能和创新潜力。此外,书中进一步介绍了大模型优化的高级话题和前沿技术,如模型小型化、推理能力和多模态大模型等。最后,本书讨论了大模型的局限性与安全性问题,展望了未来的发展方向,为读者提供了全面的理解与前瞻性的视角。
        无论是人工智能领域的研究员、工程师,还是对前沿技术充满好奇的读者,本书都将是您了解和掌握大模型技术的必备指南。
  • 作者介绍

  • 目录

    前言
    第1章  语言模型简介
      1.1  传统语言模型
        1.1.1  n-gram语言模型
        1.1.2  神经网络语言模型
        1.1.3  传统语言模型的应用
      1.2  大语言模型
        1.2.1  大模型的发展历程
        1.2.2  训练大模型的挑战
        1.2.3  大模型的应用
      1.3  大模型实例
        1.3.1  基座模型实例
        1.3.2  对齐模型实例
      1.4  小结
    第2章  大模型网络结构
      2.1  Seq2Seq结构
      2.2  注意力机制
      2.3  Transformer架构
        2.3.1  Transformer模型结构
        2.3.2  编码器单元
        2.3.3  解码器单元
        2.3.4  位置编码
      2.4  词元化
        2.4.1  BPE
        2.4.2  字节级BPE
        2.4.3  WordPiece
        2.4.4  Unigram语言模型
        2.4.5  SentencePiece
      2.5  解码策略
        2.5.1  贪心搜索
        2.5.2  集束搜索
        2.5.3  Top-k采样
        2.5.4  核采样
        2.5.5  温度采样
      2.6  小结
    第3章  大模型学习范式的演进
      3.1  预训练与微调的原理和典型模型
        3.1.1  预训练与微调
        3.1.2  三个典型模型
      3.2  多任务学习的原理和典型模型
        3.2.1  多任务学习
        3.2.2  两个典型模型
      3.3  大规模模型的能力
        3.3.1  少样本学习
        3.3.2  提示学习
        3.3.3  上下文学习
      3.4  小结
    第4章  大模型对齐训练
      4.1  对齐
        4.1.1  对齐的定义

        4.1.2  对齐的衡量指标
      4.2  基于人类反馈的强化学习
        4.2.1  监督微调的原理
        4.2.2  训练奖励模型的原理
        4.2.3  强化学习的原理
      4.3  基于AI反馈的强化学习
      4.4  直接偏好优化
      4.5  超级对齐
      4.6  小结
    第5章  大模型评测与数据集
      5.1  大模型评测方法
        5.1.1  人工评测
        5.1.2  自动评测
      5.2  大模型评测指标
        5.2.1  准确率、精确率、召回率与F1分数
        5.2.2  困惑度
        5.2.3  BLEU与ROUGE
        5.2.4  pass@k
      5.3  大模型能力评测基准
        5.3.1  MMLU
        5.3.2  GSM8K
        5.3.3  C-Eval
        5.3.4  HumanEval
      5.4  数据集及预处理方法
        5.4.1  预训练数据集
        5.4.2  指令微调数据集
        5.4.3  人工反馈数据集
        5.4.4  数据预处理方法
      5.5  小结
    第6章  分布式训练与内存优化
      6.1  大模型扩展法则
      6.2  分布式训练策略
        6.2.1  数据并行
        6.2.2  张量并行
        6.2.3  流水线并行
        6.2.4  混合并行
      6.3  大模型训练中的不稳定现象
      6.4  分布式训练集群架构
        6.4.1  中心化架构:参数服务器
        6.4.2  去中心化架构:集合
    通信
      6.5  内存优化策略
        6.5.1  混合精度训练
        6.5.2  梯度检查点
        6.5.3  梯度累积
        6.5.4  FlashAttention
      6.6  分布式训练框架
      6.7  小结
    第7章  大模型的垂直场景适配方案
      7.1  从零开始训练新模型

      7.2  全量参数微调
      7.3  低参数量微调
        7.3.1  适配器方法
        7.3.2  提示词微调
        7.3.3  前缀微调
        7.3.4  LoRA
      7.4  超低参数量微调的探索
      7.5  小结
    第8章  知识融合与工具使用
      8.1  知识融合
        8.1.1  检索增强生成
        8.1.2  解码器融合
        8.1.3  提示融合
      8.2  工具使用
        8.2.1  WebGPT
        8.2.2  LaMDA
        8.2.3  Toolformer
      8.3  自主智能体
        8.3.1  自主智能体的组件
        8.3.2  自主智能体的工作流程
      8.4  小结
    第9章  大模型的进阶优化
      9.1  模型小型化
        9.1.1  模型量化
        9.1.2  知识蒸馏
        9.1.3  参数剪枝
      9.2  推理能力及其延伸
        9.2.1  思维链
        9.2.2  零样本思维链
        9.2.3  最少到最多提示
        9.2.4  ReAct:推理能力行动能力
      9.3  代码生成
        9.3.1  Codex
        9.3.2  代码生成的要素
      9.4  多模态大模型
        9.4.1  BEiT-3
        9.4.2  CLIP
        9.4.3  Flamingo
        9.4.4  MiniGPT-4
      9.5  高质量数据的作用与构建
        9.5.1  LIMA
        9.5.2  教科书级数据
      9.6  模型能力“涌现”的原因
      9.7  小结
    第10章  大模型的局限性与未来发展方向
      10.1  大模型的局限性
        10.1.1  事实性错误
        10.1.2  理解和推理缺陷
        10.1.3  知识更新问题
        10.1.4  安全性问题

        10.1.5  计算资源限制
      10.2  大模型的未来发展方向
        10.2.1  更强的记忆:从通用到个性化
        10.2.2  装上“手脚”:赋予模型使用工具的能力
        10.2.3  多模态交互:穿越文本的边界
      10.3  小结
    参考文献