-
内容大纲
本书系统阐述了视觉语言模型的理论体系与技术实践。全书共15章,分为三大部分:基础综述(第1章)、关键技术(第2~14章)与未来展望(第15章)。
第一部分详解视觉语言模型的网络架构、预训练目标、评估方法及数据集体系,对比分析对抗训练、生成式预训练等范式,并建立性能评估基准。第二部分:第2章通过多个案例展示技术多样性;第3~5章深入探讨少样本学习、鲁棒微调等关键问题,提出约束线性探测等原创方法;第6~10章聚焦模型扩展性,涵盖InternVL亿级参数训练、VinVL视觉表征重构等前沿实践;第11~14章探索提示工程、异常检测等应用场景,包含MATCHER一次性分割等突破性方案。第三部分展望多模态生成、组合推理等未来方向。
本书系统性与前沿性并重,理论与实践结合,非常适合AI算法工程师、大模型及多模态人工智能研究者学习,也可用作高等院校相关专业的教材及参考书。 -
作者介绍
吴建明,上海交通大学模式识别与智能系统专业博士毕业。长期从事人工智能芯片设计,尤其擅长TVM/LLVM编译器、AI框架、自动驾驶、芯片制造,嵌入式系统等领域的理论研究与技术创新。长期在一线工作,包括产品设计与代码实现等,主持和参与过30多项产品的研发。还参与过国家自然科学基金、上海市科委项目,并在核心期刊公开发表过8篇论文,其中6篇是第一作者。 -
目录
第1章 视觉任务的视觉语言模型综述
1.1 视觉语言模型摘要
1.2 视觉语言模型问题提出
1.3 视觉语言模型背景
1.3.1 视觉识别的训练范式
1.3.2 用于视觉识别的VLM的开发
1.3.3 相关调查
1.4 VLM基础
1.4.1 网络架构
1.4.2 VLM预训练目标
1.4.3 VLM预训练框架
1.4.4 评估设置和下游任务
1.5 数据集
1.5.1 预训练VLM的数据集
1.5.2 VLM评估数据集
1.6 视觉语言模型预训练
1.6.1 具有对抗目标的VLM预训练
1.6.2 具有生成目标的VLM预训练
1.6.3 带有对齐目标的VLM预训练
1.7 VLM 迁移学习
1.7.1 迁移学习的动机
1.7.2 迁移学习的常见设置
1.7.3 常见的迁移学习方法
1.8 视觉大模型语言知识提炼
1.8.1 从VLM中提取知识的动机
1.8.2 常识提炼方法
1.9 性能比较
1.9.1 VLM预训练的表现
1.9.2 VLM迁移学习的性能
1.9.3 VLM知识提取的性能
1.10 未来发展方向
1.11 小结
第2章 视觉语言模型各种示例
2.1 通过模仿和自我监督学习创建多模态交互代理
2.2 DEPT:用于参数高效微调的分解式快速调谐
2.3 基于聚类掩蔽的高效视觉语言预训练
2.4 来自并行文本世界的LLM训练的体现多模态智能体
2.5 在丰富的监督下加强视觉语言预训练
2.6 FairCLIP:在视觉和语言学习中强调公平
2.7 用于开放式目标检测的生成区域语言预训练
2.8 FROSTER:冻结的CLIP是开放词汇动作识别的有力教师
2.9 Ins-DetCLIP:对齐检测模型以遵循人类语言指令
2.10 MMICL:通过多模态语境学习增强视觉语言模型的能力
2.11 学习提示分割任何模型
2.12 NEMESIS:视觉语言模型软性向量的归一化
2.13 非自回归序列到序列视觉语言模型
2.14 一个提示词足以提高预训练视觉语言模型的对抗鲁棒性
2.15 连续学习的快速梯度投影
2.16 检索增强对比视觉文本模型
2.17 TCP:基于文本的类感知可视化语言模型的提示调优
2.18 联合学习中视觉语言模型的文本驱动提示生成
第3章 大视觉语言模型的少数样本任务适配
3.1 少数样本任务适配概述
3.2 少数样本任务适配相关知识
3.2.1 少数样本任务适配历史渊源
3.2.2 相关工作概述
3.3 少数样本任务适配准备工作
3.3.1 对比视觉语言预训练大规模VLM
3.3.2 可迁移性
3.3.3 使用适配器进行高效迁移学习
3.3.4 现有少样本任务ETL方法的陷阱
3.4 少样本任务拟议办法
3.4.1 重新审视线性探测
3.4.2 约束线性探测
3.4.3 线性探测的类自适应约束
3.5 少样本任务实验
3.5.1 安装程序
3.5.2 少样本任务测试结果
3.5.3 少样本任务消融实验
3.6 少样本任务限制
第4章 基于锚点的视觉语言模型鲁棒微调
4.1 锚点视觉语言模型鲁棒微调概要
4.2 锚点视觉语言模型鲁棒微调相关技术
4.2.1 锚点视觉语言模型鲁棒微调问题提出
4.2.2 锚点视觉语言模型鲁棒微调相关工作
4.3 锚点视觉语言模型鲁棒微调准备工作
4.3.1 符号摘要
4.3.2 对比视觉语言模型
4.4 锚点视觉语言模型鲁棒微调方法
4.4.1 问题设置
4.4.2 基于锚点的稳健微调概述
4.5 锚点视觉语言模型鲁棒微调实验
4.5.1 域转换下的评估
4.5.2 零样本学习下的评价
4.5.3 消融研究
4.5.4 锚的定性示例
4.6 小结
第5章 视觉语言模型的一致性引导快速学习
5.1 一致性引导快速学习摘要
5.2 一致性引导快速学习问题提出及相关工作
5.2.1 一致性引导快速学习问题提出
5.2.2 一致性引导快速学习相关工作
5.3 一致性引导快速学习方法
5.3.1 准备工作
5.3.2 协同学习:以一致性为导向的快速学习
5.4 一致性引导快速学习4个实验
5.4.1 实验设置
5.4.2 新概括的基础
5.4.3 跨数据集评估
5.4.4 域泛化
5.4.5 消融研究
5.4.6 参数和计算复杂度
5.5 小结
第6章 InternVL:扩展视觉基础模型并对齐通用视觉语言任务
6.1 InternVL扩展视觉基础模型并对齐摘要
6.2 扩展视觉基础模型并对齐问题提出及相关工作
6.2.1 扩展视觉基础模型并对齐问题提出
6.2.2 扩展视觉基础模型并对齐相关工作
6.3 扩展视觉基础模型并对齐拟议方法
6.3.1 总体架构
6.3.2 模型设计
6.3.3 对齐策略
6.4 扩展视觉基础模型并对齐实验
6.4.1 实施细节
6.4.2 视觉感知基准
6.4.3 视觉语言基准
6.4.4 多模式对话基准
6.4.5 消融研究
6.5 扩展视觉基础模型并对齐结论
6.6 扩展视觉基础模型并对齐补充材料
6.6.1 更多实验
6.6.2 更多消融研究
6.6.3 详细训练设置
6.6.4 预训练数据准备
6.6.5 SFT的数据准备
第7章 提高大型视觉语言模型组合性的迭代学习
7.1 迭代学习摘要
7.2 迭代学习问题提出及相关工作
7.2.1 迭代学习问题提出
7.2.2 迭代学习相关工作
7.3 迭代学习方法
7.3.1 将视觉语言对抗学习重构为刘易斯信号博弈
7.3.2 用于规范表示的共享码本
7.3.3 训练中的迭代学习
7.4 迭代学习实验
7.4.1 实验设置
7.4.2 迭代学习提高了组合性
7.4.3 迭代学习不会损害识别
7.4.4 迭代学习分析
7.4.5 消融研究
7.5 小结
第8章 MATCHER:使用通用特征匹配一次性分割任何内容
8.1 特征匹配一次性分割摘要
8.2 特征匹配一次性分割问题提出及相关工作
8.2.1 特征匹配一次性分割问题提出
8.2.2 特征匹配一次性分割相关工作
8.3 特征匹配一次性分割方法
8.3.1 对应矩阵提取
8.3.2 提示生成
8.3.3 可控掩模生成
8.4 特征匹配一次性分割实验
8.4.1 实验设置
8.4.2 少样本点语义分割
8.4.3 单样本任务物体部分分割
8.4.4 视频对象分割
8.4.5 消融研究
8.4.6 定性结果
8.5 小结
第9章 视觉启发语言模型
9.1 视觉启发摘要
9.2 视觉启发问题提出及相关工作
9.2.1 视觉启发问题提出
9.2.2 视觉启发相关工作
9.3 视觉启发方法
9.3.1 准备工作
9.3.2 特征金字塔视觉提取器
9.3.3 深度视觉条件提示
9.4 视觉启发实验结果
9.4.1 实验细节
9.4.2 方法的数据效率
9.4.3 科学QA
9.4.4 图像字幕
9.4.5 视觉问答实验与问答任务
9.4.6 消融研究
9.5 小结
第10章 VinVL:重新审视视觉语言模型中的视觉表示
10.1 审视视觉表示摘要
10.2 审视视觉表示问题提出与相关工作
10.2.1 审视视觉表示问题提出
10.2.2 提高视觉语言的视觉能力
10.2.3 VL任务的高效区域特征提取器
10.3 OSCAR+预训练
10.3.1 预训练语料库
10.3.2 预训练目标
10.3.3 预训练模型
10.3.4 适应VL任务
10.4 审视视觉表示实验与分析
10.4.1 主要成果
10.4.2 消融分析
10.5 小结
第11章 视觉语境提示
11.1 视觉语境提示摘要
11.2 视觉语境提示问题提出与相关工作
11.3 视觉语境提示方法
11.3.1 分段任务的统一公式
11.3.2 视觉提示公式
11.3.3 快速采样
11.3.4 解码器查询公式
11.4 视觉语境提示实验
11.4.1 安装程序
11.4.2 通用分割和检测
11.4.3 视频对象分割
11.4.4 消融方法
11.5 视觉语境提示相关工程
11.5.1 通过文本提示进行视觉感知
11.5.2 通过图像示例进行视觉感知
11.5.3 通过视觉提示进行视觉感知
11.6 小结
第12章 ViTamin:在视觉语言时代设计可扩展的视觉模型
12.1 设计可扩展摘要
12.2 设计可扩展导言
12.3 设计可扩展相关工作
12.4 设计可扩展方法
12.4.1 CLIP和训练协议
12.4.2 CLIP环境中视觉模型的基准测试
12.4.3 ViTamin的设计
12.5 设计可扩展实验
12.5.1 实施细节
12.5.2 主要成果
12.5.3 新的下游任务套件
12.6 小结
第13章 AnomalyCLIP:用于零样本异常检测的对象诊断快速学习
13.1 零样本异常检测诊断摘要
13.2 零样本异常检测诊断简介
13.3 零样本异常检测诊断的计算
13.4 AnomalyCLIP:对象-语义提示学习
13.4.1 方法概述
13.4.2 对象-语义文本提示设计
13.4.3 学习一般异常和正常提示
13.5 零样本异常检测诊断实验
13.5.1 实验设置
13.5.2 主要结果
13.5.3 消融研究
13.6 零样本异常检测诊断相关工作
13.7 小结
第14章 任何促使分布泛化的转变
14.1 分布泛化摘要
14.2 分布泛化导言
14.3 分布泛化基础知识
14.4 分布泛化任何移位提示
14.4.1 快速建模
14.4.2 训练和推理
14.5 分布泛化相关工作
14.6 分布泛化实验
14.6.1 各种分配变动的结果
14.6.2 消融研究
14.7 小结
第15章 探索视觉语言模型的前沿:当前方法和未来方向综述
15.1 视觉语言模型前沿摘要
15.2 视觉语言模型前沿导言
15.3 视觉语言模型类型
15.3.1 视觉语言理解
15.3.2 使用多模式输入生成文本
15.3.3 多模态输出与多模态输入
15.4 视觉语言模型未来发展方向
15.5 小结
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
