欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 从零开始写大模型(从神经网络到Transformer)
      • 作者:编者:王双//牟晨//王昊怡|责编:王中英
      • 出版社:清华大学
      • ISBN:9787302695080
      • 出版日期:2025/07/01
      • 页数:232
    • 售价:27.92
  • 内容大纲

        本书结合丰富的图示和程序示例,全面、系统地介绍大模型的基本原理,并通过一个极简大语言模型构建案例带领读者上手实践。本书学习门槛极低,即便零基础的读者,也能在本书的引领下比较轻松地掌握大模型的基本知识体系,并理解大模型的基本原理,从而为日后进一步学习打好基础。本书提供配套教学视频、源代码和教学PPT等超值配套资源,以方便读者高效、直观地学习。
        本书共20章,分为5篇。第1篇神经网络快速入门,介绍神经网络的基础和结构;第2篇Transformer架构基础,介绍几种经典的编解码架构、Tokenization基础知识、Transformer架构涉及的数学概念;第3篇Transformer模型剖析,首先介绍大语言模型的概念和参数规模,然后介绍Transformer的词汇输入模块、注意力机制模块和输出模块,最后介绍基于Transformer架构的模型训练过程、推理过程、优化方法和超参数;第4篇Transformer进阶,首先介绍如何使用Python实现一个简单的Transformer架构,然后介绍BERT和GPT两种经典大语言模型,最后给出国内一些大公司的高频面试题;第5篇GPT模型完全体验之MiniMind,详细介绍一个开源极简大语言模型MiniMind的项目情况、代码结构,以及安装、训练、微调与推理过程等,带领读者体验大语言模型的完整构建过程。
        本书内容丰富,通俗易懂,案例典型,讲解深入浅出,特别适合零基础学习大模型的读者阅读,也适合IT领域或其他领域向AI转型但缺乏基础的程序员、工程师等相关从业人员阅读,还适合高等院校和培训机构作为大模型的入门教材或教学参考书。
  • 作者介绍

  • 目录

    第1篇  神经网络快速入门
      第1章  神经网络基础
        1.1  神经元
          1.1.1  神经元仿生模型
          1.1.2  神经网络的学习过程
          1.1.3  基本概念与术语
        1.2  手算神经网络
          1.2.1  建立4个神经元网络
          1.2.2  手推训练过程
        1.3  手推前向传播
        1.4  手推反向传播
      第2章  手搓神经网络
        2.1  写一个神经网络并训练
          2.1.1  前向传播的实现
          2.1.2  反向传播的实现
        2.2  经典神经网络——CNN
          2.2.1  卷积操作
          2.2.2  池化层
          2.2.3  全连接层
          2.2.4  全过程展示
          2.2.5  简单的CNN代码示例
        2.3  经典神经网络——RNN
          2.3.1  手算体验极简RNN
          2.3.2  RNN的工作原理
          2.3.3  几种经典结构
          2.3.4  经典的RNN变体——LSTM
          2.3.5  LSTM的变体——Peephole连接、Coupled和GRU
          2.3.6  简单的RNN代码示例
    第2篇  Transformer架构基础
      第3章  编解码架构概述
        3.1  数据处理的高效邮递员——Auto encoder
          3.1.1  基本原理
          3.1.2  算法描述
          3.1.3  代码示例
        3.2  温故而知新——VAE
          3.2.1  基本原理
          3.2.2  算法描述
          3.2.3  代码示例
        3.3  深度学习中的猫鼠游戏——GAN
          3.3.1  基本原理
          3.3.2  算法描述
          3.3.3  代码示例
        3.4  变形金刚——Transformer
          3.4.1  基本原理
          3.4.2  算法描述
          3.4.3  代码示例
      第4章  Tokenization基础
        4.1  文字转数字
          4.1.1  标记器
          4.1.2  独热编码

        4.2  词嵌入
          4.2.1  词嵌入简介
          4.2.2  Word2Vec词嵌入方法
      第5章  Transformer架构的数学基础
        5.1  向量和矩阵相乘的变换
          5.1.1  向量坐标系的转换
          5.1.2  向量与坐标系的关系
        5.2  空间变化的性质
          5.2.1  二次型空间变换
          5.2.2  特殊情况下的行列式
        5.3  层归一化
    第3篇  Transformer模型剖析
    第4篇  Transformer进阶
    第5篇  GPT模型完全体验之MiniMind