欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • GPT多模态大模型与AI Agent智能体/跟我一起学人工智能
      • 作者:编者:陈敬雷|责编:赵佳霓
      • 出版社:清华大学
      • ISBN:9787302686583
      • 出版日期:2025/05/01
      • 页数:404
    • 售价:43.6
  • 内容大纲

        本书深入探讨GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
        全书共8章,从大模型技术原理切人,逐步深人大模型训练及微调,还介绍众多国内外主流大模型LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行深入讲解。在企业应用落地方面,本书提供丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
        本书内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作的能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新
        本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。
  • 作者介绍

        陈敬雷,充电了么创始人,中国首席数据官联盟专家委员。拥有十几年互联网从业经验,在技术领域,尤其在大数据和人工智能方向有丰富的算法工程落地实战经验,其中在猎聘网任职期间主导的推荐算法系统项目获得公司优秀项目奖,推荐效果得到5倍的提升。目前专注于大数据和人工智能驱动的上班族在线教育行业,研发了充电了么App,用深度学习算法、NLP、推荐引擎等技术来高效提升在线学习效率。
  • 目录

    第1章  大模型技术原理
      1.1  大模型技术的起源、思想
      1.2  基于Transformer的预训练语言模型
        1.2.1  编码预训练语言模型
        1.2.2  解码预训练语言模型
        1.2.3  基于编解码架构的预训练语言模型
      1.3  提示学习与指令微调
        1.3.1  提示学习
        1.3.2  指令微调
      1.4  人类反馈强化学习
        1.4.1  强化学习
        1.4.2  PPO算法
        1.4.3  大模型人类反馈强化学习对齐
      1.5  GPT智能涌现原理与AGI通用人工智能
        1.5.1  什么是智能涌现
        1.5.2  思维链
        1.5.3  上下文学习能力
        1.5.4  指令理解
        1.5.5  通用人工智能
    第2章  大模型训练及微调
      2.1  大模型训练概述
      2.2  分布式训练的并行策略
        2.2.1  数据并行
        2.2.2  模型并行
        2.2.3  混合并行
        2.2.4  并行计算框架
      2.3  预训练模型的压缩
        2.3.1  模型压缩方案概述
        2.3.2  结构化模型压缩策略
        2.3.3  非结构化模型压缩策略
        2.3.4  8位/4位量化压缩实战
      2.4  大模型微调方法
        2.4.1  Prefix Tuning微调
        2.4.2  P-Tuning V1微调
        2.4.3  P-Tuning V2微调
        2.4.4  LoRA微调
        2.4.5  QLoRA微调
      2.5  基于旋转位置编码RoPE的长文本理解
        2.5.1  RoPE技术原理
        2.5.2  RoPE关键特性
    第3章  主流大模型
      3.1  国内大模型
        3.1.1  智谱清言 ChatGLM
        3.1.2  百川智能
        3.1.3  百度文心一言
        3.1.4  阿里巴巴通义千问
        3.1.5  腾讯混元
        3.1.6  华为盘古
        3.1.7  360智脑
        3.1.8  科大讯飞星火

        3.1.9  智源悟道大模型
        3.1.10  月之暗面 Kimi
        3.1.11  复旦大学 MOSS
        3.1.12  零一万物
        3.1.13  字节跳动豆包大模型
      3.2  国外大模型
        3.2.1  OpenAI GPT-4o
        3.2.2  Meta LLaMA
        3.2.3  Anthropic Claude
        3.2.4  谷歌 Gemini和开源Gemma
        3.2.5  Mistral Large
        3.2.6  xAI Grok
      3.3  垂直类大模型
        3.3.1  HuatuoGPT
        3.3.2  BianQue
        3.3.3  BenTsao
        3.3.4  XrayGLM
        3.3.5  DoctorGLM
        3.3.6  ChatMed
        3.3.7  度小满轩辕
        3.3.8  BloombergGPT
        3.3.9  LawGPT
        3.3.10  LexiLaw
        3.3.11  Lawyer LLaMA
        3.3.12  ChatLaw
        3.3.13  ChatGLM-Math
    第4章  LangChain技术原理与实践
      4.1  LangChain技术原理
      4.2  LangChain六大核心模块
        4.2.1  模型I/O
        4.2.2  数据增强模块
        4.2.3  链模块
        4.2.4  记忆模块
        4.2.5  Agent模块
        4.2.6  回调处理器
    第5章  RAG检索增强生成
      5.1  RAG技术原理
        5.1.1  RAG的概念与应用
        5.1.2  RAG技术架构
        5.1.3  分块和向量化
        5.1.4  搜索索引
        5.1.5  重新排序和过滤
        5.1.6  查询转换与路由
        5.1.7  RAG中的Agent智能体
        5.1.8  响应合成器
        5.1.9  大模型微调和RAG优劣势对比
      5.2  文本向量模型
        5.2.1  Embedding模型、Reranker模型及ColBERT模型
        5.2.2  阿里巴巴 GTE向量模型
        5.2.3  中文 acge_text_embedding模型

        5.2.4  智源中英文语义向量模型 BGE
        5.2.5  Moka开源文本嵌入模型 M3E
        5.2.6  OpenAI的text-embedding模型
      5.3  向量数据库
        5.3.1  Faiss
        5.3.2  Milvus
        5.3.3  Pinecone
        5.3.4  Chroma
      5.4  RAG应用实践
        5.4.1  基于大模型构建企业私有数据的知识问答
        5.4.2  应对大模型落地挑战的优化策略
    第6章  多模态大模型
      6.1  多模态基础模型
        6.1.1  多模态对齐、融合和表示
        6.1.2  CLIP
        6.1.3  BLIP
        6.1.4  BLIP-2
        6.1.5  InstructBLIP和X-InstructBLIP
        6.1.6  SAM
        6.1.7  OpenFlamingo
        6.1.8  VideoChat
        6.1.9  PaLM-E
      6.2  OpenAI多模态大模型DALL·E 3、GPT-4V、GPT-4o、Sora
        6.2.1  文生图多模态大模型DALL·E 3
        6.2.2  GPT-4V
        6.2.3  端到端训练多模态大模型GPT-4o技术原理
        6.2.4  文生视频多模态大模型Sora
      6.3  通义千问多模态大模型
        6.3.1  开源Qwen-VL和Qwen-VL-Chat
        6.3.2  Qwen-VL-Plus和Qwen-VL-Max
      6.4  开源端到端训练多模态大模型LLaVA
        6.4.1  LLaVA
        6.4.4  MoE-LLaVA
        6.4.5  LLaVA-Plus
        6.4.6  Video-LLaVA和LLaVA-NeXT-Video
      6.5  零一万物多模态大模型Yi-VL系列
        6.5.1  Yi-VL系列模型架构
        6.5.2  Yi-VL系列模型训练微调及推理
      6.6  清华系多模态大模型
        6.6.1  VisualGLM-6B
        6.6.2  CogVLM2
        6.6.3  CogAgent
        6.6.4  CogView、CogVideo和CogVideoX
        6.6.5  CogCoM
        6.6.6  GLM-4V-9B
    第7章  AI Agent智能体
      7.1  AI Agent智能体介绍和原理
        7.1.1  AI Agent的定义与角色
        7.1.2  AI Agent技术原理
      7.2  主流大模型Agent框架

        7.2.1  AutoGPT
        7.2.2  MetaGPT
        7.2.3  ChatDev
        7.2.4  AutoGen
        7.2.5  FastGPT
        7.2.6  XAgent
        7.2.7  GPT-Engineer
        7.2.8  BabyAGI
        7.2.9  SuperAGI
    第8章  大模型在企业应用中落地
      8.1  基于大模型的对话式推荐系统
        8.1.1  基于大模型的对话式推荐系统架构设计
        8.1.2  推荐AI Agent智能体
        8.1.3  面向推荐的语言表达模型
        8.1.4  知识插件
        8.1.5  基于大模型的推荐解释
        8.1.6  对话式推荐系统的新型评测方法
      8.2  多模态搜索
        8.2.1  多模态搜索技术架构设计
        8.2.2  多模态搜索关键技术
        8.2.3  多模态实时搜索与个性化推荐
      8.3  基于自然语言交互的NL2SQL数据即席查询
        8.3.1  NL2SQL数据即席查询技术原理
        8.3.2  NL2SQL应用实践
      8.4  基于大模型的智能客服对话机器人
        8.4.1  大模型智能客服对话机器人技术原理
        8.4.2  AI大模型赋能提升智能客服解决率新策略
        8.4.3  基于大模型的智能客服对话机器人系统搭建
      8.5  多模态数字人
        8.5.1  多模态数字人技术原理
        8.5.2  三维建模与三维重建
        8.5.3  声音克隆与形象克隆
        8.5.4  唇形同步算法
        8.5.5  NeRF、ER-NeRF与RAD-NeRF模型
        8.5.6  数字人项目实践
      8.6  多模态具身智能
        8.6.1  多模态具身智能概念及技术路线
        8.6.2  多模态感知与场景理解
        8.6.3  视觉导航
        8.6.4  世界模型
        8.6.5  具身智能模拟器
        8.6.6  多模态多感官交互具身智能大模型
        8.6.7  端到端强化学习人形机器人
        8.6.8  多模态通才具身智能体