欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • ChatGPT原理与架构+AIGC ChatGPT辅助软件开发(共2册)
      • 作者:(美)陈斌//程戈|责编:杨福川//陈洁
      • 出版社:机械工业
      • ISBN:HZ2024248
      • 出版日期:2024/07/15
      • 页数:488
    • 售价:79.2
  • 内容大纲

      《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程》:  《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程》是一本深入阐述ChatGPT等大模型的工作原理、运行机制、架构设计和底层技术,以及预训练、迁移、微调和中间件编程的著作。它将帮助我们从理论角度全面理解大模型,从实践角度更好地应用大模型,是作者成功训练并部署大模型的过程复盘和经验总结。  首章介绍了ChatGPT等大模型的发展历程、技术演化和技术栈等基础知识;  第2-5章深入讲解了Transformer的架构原理,并从GPT-1的生成式预训练到GPT-3的稀疏注意力机制详细描述了GPT系列的架构演进;  第6-8章从底层技术实现的角度讲解了大模型的训练策略、数据处理方法,以及如何利用策略优化和人类反馈来进一步提升模型的表现;  第9-10章首先详细讲解了大模型在垂直领域的低算力迁移方法,并给出了医疗和司法领域的迁移案例,然后讲解了大模型的中间件编程;  第11章对GPT的未来发展趋势进行预测,探讨数据资源、自回归模型的局限性,以及大模型时代具身智能的可行路线。  《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》:  《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》是一本讲解以ChatGPT/GPT-4为代表的大模型如何为软件研发全生命周期赋能的实战性著作。它以软件研发全生命周期为主线,详细讲解了ChatGPT/GPT-4在软件产品的需求分析、架构设计、技术栈选择、高层设计、数据库设计、UI/UX设计、后端应用开发、Web前端开发、软件测试、系统运维、技术管理等各个环节的应用场景和方法,让读者深刻地感受到ChatGPT/GPT-4在革新传统软件工程的方式和方法的同时,还带来了研发效率和研发质量的大幅度提升。  更为重要的是,《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》能帮助架构师、开发工程师、数据库工程师、测试工程师、运维工程师、项目经理、产品经理、UI/UX工程师和技术管理者深入地理解ChatGPT/GPT-4的原理和应用,全面塑造他们在AI时代的核心竞争力,实现价值创新并形成竞争优势,为未来的发展奠定基础。  作者在《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》中创新性地提出了大模型时代的软件研发新范式——水母开发模式(顶部大、底部小)。该模式将研发活动分成6个层次,分别对应软件研发生命周期的分析、设计、编码、测试、部署和维护。其中分析和设计层的工作量大很多,类似水母的头部;其余4个层次的工作量较少,类似水母的触手。  除此之外,《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》还给出了工程师们与ChatGPT互动(Prompt)的步骤和注意事项,整个过程分为6步,只要遵循这6步就能比较容易地获得较为满意的输出结果。
  • 作者介绍

  • 目录

    《ChatGPT原理与架构:大模型的预训练、迁移和中间件编程》
    前言
    第1章  人工智能的新里程碑——ChatGPT
      1.1  ChatGPT的发展历程
      1.2  ChatGPT的能力
      1.3  大语言模型的技术演化
        1.3.1  从符号主义到连接主义
        1.3.2  Transformer模型
        1.3.3  无监督预训练
        1.3.4  有监督微调
        1.3.5  人类反馈强化学习
      1.4  大语言模型的技术栈
      1.5  大语言模型带来的影响
      1.6  大语言模型复现的壁垒
        1.6.1  算力瓶颈
        1.6.2  数据瓶颈
        1.6.3  工程瓶颈
      1.7  大语言模型的局限性
      1.8  小结
    第2章  深入理解Transformer模型
      2.1  Transformer模型简介
      2.2  自注意力机制
        2.2.1  自注意力机制的计算过程
        2.2.2  自注意力机制的本质
        2.2.3  自注意力机制的优势与局限性
      2.3  多头注意力机制
        2.3.1  多头注意力机制的实现
        2.3.2  多头注意力机制的作用
        2.3.3  多头注意力机制的优化
      2.4  前馈神经网络
      2.5  残差连接
      2.6  层归一化
      2.7  位置编码
        2.7.1  位置编码的设计与实现
        2.7.2  位置编码的变体
        2.7.3  位置编码的优势与局限性
      2.8  训练与优化
        2.8.1  损失函数
        2.8.2  优化器
        2.8.3  学习率调整策略
        2.8.4  正则化
        2.8.5  其他训练与优化技巧
      2.9  小结
    第3章  生成式预训练
      3.1  生成式预训练简介
      3.2  GPT的模型架构
      3.3  生成式预训练过程
        3.3.1  生成式预训练的目标
        3.3.2  生成式预训练的误差反向传播过程
      3.4  有监督微调

        3.4.1  有监督微调的原理
        3.4.2  有监督微调的特定任务
        3.4.3  有监督微调的步骤
      3.5  小结
    第4章  无监督多任务与零样本学习
      4.1  编码器与解码器
      4.2  GPT-2的模型架构
        4.2.1  层归一化
        4.2.2  正交初始化
        4.2.3  可逆的分词方法
        4.2.4  可学习的相对位置编码
      4.3  无监督多任务
      4.4  多任务学习与零样本学习的关系
      4.5  GPT-2的自回归生成过程
        4.5.1  子词单元嵌入
        4.5.2  自回归过程
      4.6  小结
    第5章  稀疏注意力与基于内容的学习
      5.1  GPT-3的模型架构
      5.2  稀疏注意力模式
        5.2.1  Sparse Transformer的特点
        5.2.2  局部带状注意力
        5.2.3  跨层稀疏连接
      5.3  元学习和基于内容的学习
        5.3.1  元学习
        5.3.2  基于内容的学习
      5.4  概念分布的贝叶斯推断
        5.4.1  隐式微调
        5.4.2  贝叶斯推断
      5.5  思维链的推理能力
      5.6  小结
    第6章  大语言模型的预训练策略
      6.1  预训练数据集
      6.2  预训练数据的处理
      6.3  分布式训练模式
        6.3.1  数据并行
        6.3.2  模型并行
      6.4  分布式训练的技术路线
        6.4.1  Pathways
        6.4.2  Megatron-LM
        6.4.3  ZeRO
      6.5  训练策略案例
        6.5.1  训练框架
        6.5.2  参数稳定性
        6.5.3  训练设置的调整
        6.5.4  BF16优化
        6.5.5  其他因素
      6.6  小结
    第7章  近端策略优化算法
      7.1  传统的策略梯度方法

        7.1.1  策略梯度方法的基本原理
        7.1.2  重要性采样
        7.1.3  优势函数
      7.2  Actor-Critic算法
        7.2.1  Actor-Critic算法的基本步骤
        7.2.2  值函数与策略更新
        7.2.3  Actor-Critic算法的问题与挑战
      7.3  信任域策略优化算法
        7.3.1  TRPO算法的目标
        7.3.2  TRPO算法的局限性
      7.4  PPO算法的原理
      7.5  小结
    第8章  人类反馈强化学习
      8.1  强化学习在ChatGPT迭代中的作用
      8.2  InstructGPT训练数据集
        8.2.1  微调数据集的来源
        8.2.2  标注标准
        8.2.3  数据分析
      8.3  人类反馈强化学习的训练阶段
        8.3.1  有监督微调阶段
        8.3.2  奖励建模阶段
        8.3.3  强化学习阶段
      8.4  奖励建模算法
        8.4.1  算法思想
        8.4.2  损失函数
      8.5  PPO算法在InstructGPT中的应用
      8.6  多轮对话能力
      8.7  人类反馈强化学习的必要性
      8.8  小结
    第9章  大语言模型的低算力领域迁移
      9.1  指令自举标注
      9.2  人工智能反馈
      9.3  低秩自适应
        9.3.1  模型训练与部署
        9.3.2  秩的选择
      9.4  量化:降低部署的算力要求
      9.5  SparseGPT剪枝算法
      9.6  开源大语言模型的低算力迁移案例
        9.6.1  基座模型
        9.6.2  自举指令微调的羊驼系列
        9.6.3  中文解决方案
        9.6.4  医疗领域的迁移实例
        9.6.5  司法领域的迁移实例
      9.7  小结
    第10章  中间件编程
      10.1  补齐短板—LangChain恰逢其时
      10.2  多模态融合中间件
        10.2.1  任务规划
        10.2.2  模型选择
        10.2.3  任务执行

        10.2.4  响应生成
      10.3  AutoGPT自主代理与任务规划
      10.4  中间件框架的竞品
      10.5  小结
    第11章  大语言模型的未来之路
      11.1  强人工智能之路
      11.2  数据资源枯竭
      11.3  自回归模型的局限性
      11.4  具身智能
        11.4.1  具身智能的挑战
        11.4.2  PaLM-E
        11.4.3  ChatGPT for Robotics
      11.5  小结

    ……
    《ChatGPT驱动软件开发:AI在软件研发全流程中的革新与实践》