-
内容大纲
本书从机器学习的角度系统地介绍自然语言处理领域,包括由统计模型到深度学习模型,由生成模型到判别模型,由监督模型到无监督模型等,对于每个主题都选择了最具代表性的概念与算法,使得阅读及教学过程深入浅出、通俗易懂。本书的目标读者为计算机科学、人工智能或相关跨学科专业的高年级本科生及研究生,自然语言处理工程师也可将本书作为理论参考书籍,读者需要具备一定的线性代数、微积分、概率论及算法基础。 -
作者介绍
-
目录
中文版序
译者序
前言
符号表
第一部分 基础知识
第1章 绪论
1.1 自然语言处理的概念
1.2 自然语言处理任务
1.2.1 基础任务
1.2.2 信息抽取任务
1.2.3 应用
1.2.4 小结
1.3 机器学习视角下的自然语言处理任务
总结
注释
习题
参考文献
第2章 相对频率
2.1 概率建模
2.1.1 最大似然估计
2.1.2 词概率建模
2.1.3 模型与概率分布
2.2 n元语言模型
2.2.1 一元语言模型
2.2.2 二元语言模型
2.2.3 三元及高阶语言模型
2.2.4 生成式模型
2.3 朴素贝叶斯文本分类器
2.3.1 朴素贝叶斯文本分类
2.3.2 文本分类器的评估
2.3.3 边缘概率的计算
2.3.4 特征
总结
注释
习题
参考文献
第3章 特征向量
3.1 文本在向量空间中的表示
3.1.1 聚类
3.1.2 k均值聚类
3.1.3 分类
3.1.4 支持向量机
3.1.5 感知机
3.2 多分类
3.2.1 定义基于输出的特征
3.2.2 多分类支持向量机
3.2.3 多分类感知机
3.3 线性判别式模型
3.3.1 判别式模型及其特征
3.3.2 线性模型的点积形式
3.4 向量空间与模型训练
3.4.1 可分性与泛化性
3.4.2 处理非线性可分数据
总结
注释
习题
参考文献
第4章 判别式线性分类器
4.1 对数线性模型
4.1.1 二分类对数线性模型的训练
4.1.2 多分类对数线性模型的训练
4.1.3 利用对数线性模型进行分类
4.2 基于随机梯度下降法训练支持向量机
4.2.1 二分类支持向量机的训练
4.2.2 多分类支持向量机的训练
4.2.3 感知机训练的目标函数
4.3 广义线性模型
4.3.1 统一在线训练
4.3.2 损失函数
4.3.3 正则化
4.4 模型融合
4.4.1 模型性能比较
4.4.2 模型集成
4.4.3 半监督学习
总结
注释
习题
参考文献
第5章 信息论观点
5.1 最大熵原理
5.1.1 朴素最大熵模型
5.1.2 条件熵
5.1.3 最大熵模型与训练数据
5.2 KL散度与交叉熵
5.2.1 交叉熵和最大似然估计
5.2.2 模型困惑度
5.3 互信息
5.3.1 点互信息
5.3.2 基于点互信息的文本挖掘
5.3.3 基于点互信息的特征选取
5.3.4 词的点互信息与向量表示
总结
注释
习题
参考文献
第6章 隐变量
6.1 期望最大算法
6.1.1 k均值算法
6.1.2 期望最大算法介绍
6.2 基于期望最大算法的隐变量模型
6.2.1 无监督朴素贝叶斯模型
6.2.2 IBM模型1
6.2.3 概率潜在语义分析
6.2.4 生成模型的相对优势
6.3 期望最大算法的理论基础
6.3.1 期望最大与KL散度
6.3.2 基于数值优化的期望最大算法推导
总结
注释
习题
参考文献
第二部分 结构研究
第7章 生成式序列标注任务
7.1 序列标注
7.2 隐马尔可夫模型
7.2.1 隐马尔可夫模型的训练
7.2.2 解码
7.3 计算边缘概率
7.3.1 前向算法
7.3.2 后向算法
7.3.3 前向-后向算法
7.3.4 二阶隐马尔可夫模型的前向-后向算法
7.4 基于期望最大算法的无监督隐马尔可夫模型训练
总结
注释
习题
参考文献
第8章 判别式序列标注任务
8.1 局部训练的判别式序列标注模型
8.2 标注偏置问题
8.3 条件随机场
8.3.1 全局特征向量
8.3.2 解码
8.3.3 边缘概率计算
8.3.4 训练
8.4 结构化感知机
8.5 结构化支持向量机
总结
注释
习题
参考文献
第9章 序列分割
9.1 基于序列标注的序列分割任务
9.1.1 面向分词的序列标注特征
9.1.2 面向句法组块分析的序列标注特征
9.1.3 面向命名实体识别的序列标注特征
9.1.4 序列分割输出的评价方式
9.2 面向序列分割的判别式模型
9.2.1 分词中的词级别特征
9.2.2 基于动态规划的精确搜索解码
9.2.3 半马尔可夫条件随机场
9.2.4 最大间隔模型
9.3 结构化感知机与柱搜索
9.3.1 放宽特征局部约束
9.3.2 柱搜索解码
总结
注释
习题
参考文献
第10章 树结构预测
10.1 生成式成分句法分析
10.1.1 概率上下文无关文法
10.1.2 CKY解码
10.1.3 成分句法解析器的性能评估
10.1.4 边缘概率的计算
10.2 成分句法分析的特征
10.2.1 词汇化概率上下文无关文法
10.2.2 判别式成分句法分析模型
10.2.3 面向成分句法分析的对数线性模型
10.2.4 面向成分句法分析的最大间隔模型
10.3 重排序
10.4 序列和树结构总结及展望
总结
注释
习题
参考文献
第11章 基于转移的结构预测模型
11.1 基于转移的结构化预测
11.1.1 贪心式局部模型
11.1.2 结构化全局模型
11.2 基于转移的成分句法分析
11.2.1 移进归约成分句法分析
11.2.2 特征模板
11.3 基于转移的依存句法分析
11.3.1 标准弧转移依存句法分析
11.3.2 依存句法解析器的评价方法
11.3.3 贪心弧转移依存句法分析
11.3.4 基于SWAP动作的非投影树解析
11.4 句法分析联合模型
11.4.1 分词、词性标注与依存句法分析联合模型
11.4.2 讨论
总结
注释
习题
参考文献
第12章 贝叶斯网络
12.1 通用概率模型
12.2 贝叶斯网络的训练
12.2.1 最大似然估计
12.2.2 最大后验估计
12.2.3 共轭先验
12.2.4 贝叶斯估计
12.2.5 贝叶斯一元语言模型
12.3 推理
12.3.1 精确推理
12.3.2 吉布斯采样
12.4 潜在狄利克雷分配
12.4.1 带有隐变量的训练过程
12.4.2 潜在狄利克雷分配模型的应用
12.4.3 主题评价
12.5 贝叶斯IBM模型1
总结
注释
习题
参考文献
第三部分 深度学习
第13章 神经网络
13.1 从单层网络到多层网络
13.1.1 面向文本分类任务的多层感知机
13.1.2 多层感知机的训练
13.2 构建不依赖人工特征的文本分类器
13.2.1 词嵌入
13.2.2 序列编码层
13.2.3 输出层
13.2.4 训练
13.3 神经网络的训练优化
13.3.1 Short-cut连接
13.3.2 层标准化
13.3.3 Dropout机制
13.3.4 神经网络随机梯度下降训练算法的优化
13.3.5 超参数搜索
总结
注释
习题
参考文献
第14章 表示学习
14.1 循环神经网络
14.1.1 朴素循环神经网络
14.1.2 循环神经网络的训练
14.1.3 长短期记忆网络与门控循环单元
14.1.4 堆叠式长短期记忆网络
14.2 注意力机制
14.2.1 键值对注意力
14.2.2 自注意力网络
14.3 树结构
14.3.1 Child-Sum树形长短期记忆网络
14.3.2 二叉树长短期记忆网络
14.3.3 特征对比
14.4 图结构
14.4.1 图循环神经网络
14.4.2 图卷积神经网络
14.4.3 图注意力神经网络
14.4.4 特征聚合
14.5 表示向量的分析
14.6 神经网络的训练
14.6.1 AdaGrad算法
14.6.2 RMSProp算法
14.6.3 AdaDelta算法
14.6.4 Adam算法
14.6.5 优化算法的选择
总结
注释
习题
参考文献
第15章 基于神经网络的结构预测模型
15.1 基于图的局部模型
15.1.1 序列标注
15.1.2 依存分析
15.1.3 成分句法分析
15.1.4 和线性模型的对比
15.2 基于转移的局部贪心模型
15.2.1 模型1
15.2.2 模型2
15.2.3 模型3
15.3 全局结构化模型
15.3.1 基于神经网络的条件随机场模型
15.3.2 全局规范化的基于转移的模型
总结
注释
习题
参考文献
第16章 两段式文本任务
16.1 序列到序列模型
16.1.1 模型1:基于长短期记忆网络
16.1.2 模型2:基于注意力机制
16.1.3 模型3:基于拷贝机制
16.1.4 子词模型
16.1.5 基于多头自注意力网络的序列到序列模型
16.2 文本匹配模型
16.2.1 文本匹配
16.2.2 匹配查询
16.2.3 记忆网络
总结
注释
习题
参考文献
第17章 预训练与迁移学习
17.1 神经网络语言模型与词向量
17.1.1 神经网络n元语言模型
17.1.2 噪声对比估计
17.1.3 神经网络语言模型的优化
17.1.4 分布式词表示
17.1.5 引入全局统计信息的词向量(GloVe)
17.1.6 词向量评估
17.1.7 词向量与未知词
17.1.8 基于n元组字符的词向量
17.2 上下文相关的词表示
17.2.1 循环神经网络语言模型
17.2.2 基于上下文的词向量
17.2.3 基于自注意力的上下文词向量
17.2.4 双向自注意力网络语言模型
17.2.5 上下文相关词向量的使用
17.3 迁移学习
17.3.1 多任务学习
17.3.2 共享参数的选择
17.3.3 共享-私有网络结构
总结
注释
习题
参考文献
第18章 深度隐变量模型
18.1 将隐变量引入神经网络
18.2 使用类别隐变量
18.2.1 SGD模型训练
18.2.2 文本聚类的词袋模型
18.2.3 考虑序列信息的文本聚类模型
18.3 使用结构化隐变量
18.3.1 引入结构化隐变量
18.3.2 序列标注
18.3.3 序列分割
18.3.4 成分句法
18.4 变分推理
18.4.1 证据下界
18.4.2 坐标上升变分推理
18.4.3 随机变分推理
18.4.4 分摊变分推理
18.4.5 变分自编码器
18.4.6 重参数化
18.5 神经主题模型
18.5.1 神经变分文档模型
18.5.2 神经主题模型介绍
18.6 面向语言模型的变分自编码器
18.6.1 TextVAE
18.6.2 变分序列到序列模型
总结
注释
习题
参考文献
索引
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
