-
内容大纲
本书介绍自然语言处理的原理和方法及其代码实现,是一本着眼于自然语言处理教学实践的图书。
本书分为3个部分。第一部分介绍基础技术,包括文本规范化、文本表示、文本分类、文本聚类。第二部分介绍自然语言的序列建模,包括语言模型、序列到序列模型、预训练语言模型、序列标注。第三部分介绍自然语言的结构建模,包括成分句法分析、依存句法分析、语义分析、篇章分析。本书将自然语言处理的理论与实践相结合,提供所介绍方法的代码示例,能够帮助读者掌握理论知识并进行动手实践。
本书适合作为高校自然语言处理课程的教材,也可作为相关行业的研究人员和开发人员的参考资料。 -
作者介绍
-
目录
第1章 初探自然语言处理
1.1 自然语言处理是什么
1.2 自然语言处理的应用
1.3 自然语言处理的难点
1.4 自然语言处理的方法论
1.5 小结
第一部分 基础
第2章 文本规范化
2.1 分词
2.1.1 基于空格与标点符号的分词
2.1.2 基于正则表达式的分词
2.1.3 词间不含空格的语言的分词
2.1.4 基于子词的分词
2.2 词规范化
2.2.1 大小写折叠
2.2.2 词目还原
2.2.3 词干还原
2.3 分句
2.4 小结
第3章 文本表示
3.1 词的表示
3.2 稀疏向量表示
3.3 稠密向量表示
3.3.1 word2vec
3.3.2 上下文相关词嵌入
3.4 文档表示
3.4.1 词-文档共现矩阵
3.4.2 TF-IDF加权
3.4.3 文档的稠密向量表示
3.5 小结
第4章 文本分类
4.1 基于规则的文本分类
4.2 基于机器学习的文本分类
4.2.1 朴素贝叶斯
4.2.2 逻辑斯谛回归
4.3 分类结果评价
4.4 小结
第5章 文本聚类
5.1 k均值聚类算法
5.2 基于高斯混合模型的最大期望值算法
5.2.1 高斯混合模型
5.2.2 最大期望值算法
5.3 无监督朴素贝叶斯模型
5.4 主题模型
5.5 小结
第二部分 序列
第6章 语言模型
6.1 概述
6.2 n元语法模型
6.3 循环神经网络
6.3.1 循环神经网络
6.3.2 长短期记忆
6.3.3 多层双向循环神经网络
6.4 注意力机制多头注意力
6.5 Transformer模型
6.6 小结
第7章 序列到序列模型
7.1 基于神经网络的序列到序列模型
7.1.1 循环神经网络
7.1.2 注意力机制
7.1.3 Transformer
7.2 学习
7.3 解码
7.3.1 贪心解码
7.3.2 束搜索解码
7.3.3 其他解码问题与解决技巧
7.4 指针网络
7.5 序列到序列任务的延伸
7.6 小结
第8章 预训练语言模型
8.1 ELMo:基于语言模型的上下文相关词嵌入
8.2 BERT:基于Transformer的双向编码器表示
8.2.1 掩码语言模型
8.2.2 BERT模型
8.2.3 预训练
8.2.4 微调与提示
8.2.5 BERT代码演示
8.2.6 BERT模型扩展
8.3 GPT:基于Transformer的生成式预训练语言模型
8.3.1 GPT模型的历史
8.3.2 GPT-2训练演示
8.3.3 GPT的使用
8.4 基于编码器-解码器的预训练语言模型
8.5 基于HuggingFace的预训练语言模型使用
8.5.1 文本分类
8.5.2 文本生成
8.5.3 问答
8.5.4 文本摘要
8.6 小结
第9章 序列标注
9.1 序列标注任务
9.1.1 词性标注
9.1.2 中文分词
9.1.3 命名实体识别
9.1.4 语义角色标注
9.2 隐马尔可夫模型
9.2.1 模型
9.2.2 解码
9.2.3 输入序列的边际概率
9.2.4 单个标签的边际概率
9.2.5 监督学习
9.2.6 无监督学习
9.2.7 部分代码实现
9.3 条件随机场
9.3.1 模型
9.3.2 解码
9.3.3 监督学习
9.3.4 无监督学习
9.3.5 部分代码实现
9.4 神经序列标注模型
9.4.1 神经softmax
9.4.2 神经条件随机场
9.4.3 代码实现
9.5 小结
第三部分 结构
第10章 成分句法分析
10.1 成分结构
10.2 成分句法分析概述
10.2.1 歧义性与打分
10.2.2 解码
10.2.3 学习
10.2.4 评价指标
10.3 基于跨度的成分句法分析
10.3.1 打分
10.3.2 解码
10.3.3 学习
10.4 基于转移的成分句法分析
10.4.1 状态与转移
10.4.2 转移的打分
10.4.3 解码
10.4.4 学习
10.5 基于上下文无关文法的成分句法分析
10.5.1 上下文无关文法
10.5.2 解码和学习
10.6 小结
第11章 依存句法分析
11.1 依存结构
11.1.1 投射性
11.1.2 与成分结构的关系
11.2 依存句法分析概述
11.2.1 打分、解码和学习
11.2.2 评价指标
11.3 基于图的依存句法分析
11.3.1 打分
11.3.2 解码
11.3.3 Eisner算法
11.3.4 MST算法
11.3.5 高阶方法
11.3.6 监督学习
11.4 基于转移的依存句法分析
11.4.1 状态与转移
11.4.2 打分、解码与学习
11.5 小结
第12章 语义分析
12.1 显式和隐式的语义表示
12.2 词义表示
12.2.1 WordNet
12.2.2 词义消歧
12.3 语义表示
12.3.1 专用和通用的语义表示
12.3.2 一阶逻辑
12.3.3 语义图
12.4 语义分析
12.4.1 基于句法的语义分析
12.4.2 基于神经网络的语义分析
12.4.3 弱监督学习
12.5 语义角色标注
12.5.1 语义角色标注标准
12.5.2 语义角色标注方法
12.6 信息提取
12.7 小结
第13章 篇章分析
13.1 篇章
13.1.1 连贯性关系
13.1.2 篇章结构
13.1.3 篇章分析
13.2 共指消解
13.2.1 提及检测
13.2.2 提及聚类
13.3 小结
总结与展望
参考文献
中英文术语对照表
附录
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...