欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 大语言模型(技术实践与场景应用)/前沿科技人工智能系列
      • 作者:编者:黄河燕//迟泽闻//柏宇//杨毅哲|责编:牛平月
      • 出版社:电子工业
      • ISBN:9787121516139
      • 出版日期:2026/01/01
      • 页数:280
    • 售价:35.2
  • 内容大纲

        大语言模型作为人工智能革命的核心驱动力,正深刻重构自然语言处理与多模态领域的技术范式。本书系统构建了从理论基石到产业实践的全栈知识体系,深入解析语言模型演进脉络与Transformer核心架构,剖析大规模训练中的工程挑战与优化方案,阐释跨语言迁移能力的实现机制,并重点通过医疗、金融、法律等领域的真实案例,揭示模型定制化应用与场景落地的完整路径。全书立足技术前沿,兼顾算法深度与实践创新,致力为人工智能研究者、工程师与技术决策者提供兼具系统性与实用性的实践指南。
  • 作者介绍

  • 目录

    第1章  大语言模型概况
      1.1  研究背景及意义
        1.1.1  研究背景
        1.1.2  研究意义
      1.2  基本概念及问题描述
        1.2.1  语言模型
        1.2.2  Transformer架构
        1.2.3  预训练语言模型
        1.2.4  仅编码器架构
        1.2.5  编码器-解码器架构
        1.2.6  仅解码器架构
        1.2.7  微调与上下文学习
      1.3  典型方法与代表性系统
        1.3.1  统计语言模型
        1.3.2  循环神经网络语言模型
        1.3.3  基于Transformer架构的语言模型
        1.3.4  掩码语言模型
        1.3.5  自回归语言模型
        1.3.6  指令微调训练
        1.3.7  基于人类反馈的强化学习训练
      1.4  相关数据与评测指标
        1.4.1  Pile数据集
        1.4.2  ROOTS数据集
        1.4.3  RedPajama和SlimPajama数据集
        1.4.4  RefineWeb数据集
        1.4.5  CLUECorpus数据集
        1.4.6  WuDao数据集
        1.4.7  性能评测
      1.5  参考文献
    第2章  大语言模型的基础理论
      2.1  Transformer架构
      2.2  词表示
        2.2.1  字节对编码分词
        2.2.2  单字语言模型分词
      2.3  位置编码
        2.3.1  绝对位置编码
        2.3.2  相对位置编码
      2.4  Transformer架构组成
        2.4.1  编码器与解码器
        2.4.2  多头注意力机制
      2.5  大语言模型训练
      2.6  语言模型应用
        2.6.1  自然语言理解
        2.6.2  上下文学习
        2.6.3  多模态
        2.6.4  智能体
      2.7  参考文献
    第3章  大语言模型架构与训练技术
      3.1  大语言模型发展现状
      3.2  大语言模型架构

        3.2.1  位置编码
        3.2.2  归一化
        3.2.3  注意力机制
        3.2.4  前馈神经网络
      3.3  大语言模型预训练数据
        3.3.1  多源数据收集
        3.3.2  数据处理与过滤
        3.3.3  数据影响分析
      3.4  大语言模型训练技术
        3.4.1  分布式训练
        3.4.2  并行训练策略分析
        3.4.3  DeepSpeed训练实践
        3.4.4  预训练大语言模型评估实践
      3.5  有监督下游任务指令微调
        3.5.1  指令微调数据
        3.5.2  有监督指令微调实践与评估
      3.6  本章小结
      3.7  参考文献
    第4章  大语言模型的效率优化
      4.1  大语言模型的效率问题
        4.1.1  研究背景及意义
        4.1.2  本章问题描述及解决思路
      4.2  摘要场景下的大语言模型效率优化
        4.2.1  引言
        4.2.2  模型架构
        4.2.3  实验验证
      4.3  基于上下文压缩的效率优化
        4.3.1  引言
        4.3.2  模型架构
        4.3.3  实验验证
      4.4  参考文献
    第5章  大语言模型跨语言迁移性能分析
      5.1  多语言模型预训练任务分析
        5.1.1  概述
        5.1.2  多语言掩码建模
        5.1.3  翻译语言模型
      5.2  衡量语言模型的跨语言迁移能力
        5.2.1  引言
        5.2.2  传统指标:跨语言迁移差距
        5.2.3  跨语言迁移性指标IGAP
        5.2.4  实验与分析
        5.2.5  小结
      5.3  高资源语言无监督训练对模型多语言表现的影响
        5.3.1  引言
        5.3.2  方法
        5.3.3  实验验证:上游知识迁移
        5.3.4  实验验证:下游知识迁移
      5.4  本章小结
      5.5  参考文献
    第6章  基于预训练的跨语言迁移学习模型

      6.1  引言
      6.2  基于跨语言对比训练的多语言模型
        6.2.1  概述
        6.2.2  方法
        6.2.3  实验验证
        6.2.4  分析与讨论
        6.2.5  小结
      6.3  面向文本生成的跨语言迁移学习
        6.3.1  XNLG的预训练任务
        6.3.2  XNLG的预训练步骤
        6.3.3  在下游自然语言生成任务上微调
        6.3.4  问题生成的跨语言迁移
        6.3.5  文本摘要的跨语言迁移
        6.3.6  小结
      6.4  面向文本理解及生成的跨语言迁移学习
        6.4.1  概述
        6.4.2  多语言文本转换
        6.4.3  MT6:基于翻译句对的跨语言预训练
        6.4.4  实验验证
        6.4.5  小结
      6.5  基于词对齐监督的多语言模型
        6.5.1  方法
        6.5.2  实验验证
        6.5.3  小结
      6.6  参考文献
    第7章  基于大语言模型的跨语言文本摘要研究
      7.1  跨语言文本摘要任务简介
        7.1.1  研究背景及意义
        7.1.2  本章问题描述及解决思路
      7.2  低资源场景下的跨语言文本摘要
        7.2.1  引言
        7.2.2  模型架构
        7.2.3  实验验证
      7.3  翻译语料加持的跨语言文本摘要
        7.3.1  引言
        7.3.2  模型架构
        7.3.3  实验验证
      7.4  参考文献
    第8章  基于领域迁移的大语言模型场景应用
      8.1  大语言模型的基础能力
      8.2  大语言模型在生物医疗领域的应用实例
        8.2.1  大语言模型在医疗领域的应用
        8.2.2  大语言模型在计算生物学的应用
      8.3  大语言模型在社会科学的应用实例
        8.3.1  大语言模型在法律领域的应用
        8.3.2  大语言模型在心理学的应用
        8.3.3  大语言模型在社会计算的应用
        8.3.4  大语言模型在金融领域的应用
      8.4  大语言模型在计算机领域的应用实例
        8.4.1  大语言模型在编程领域的应用

        8.4.2  大语言模型在软件工程领域的应用
        8.4.3  大语言模型在智能体领域的应用
      8.5  大语言模型在学科发展与艺术创作领域的应用实例
        8.5.1  大语言模型在促进学科发展的应用
        8.5.2  大语言模型在艺术创作领域的应用
      8.6  大语言模型在法律和金融领域的应用实例
        8.6.1  大语言模型在法律领域的应用
        8.6.2  大语言模型在金融领域的应用
      8.7  本章小结
      8.8  参考文献