-
内容大纲
这是一本讲述如何用NLP技术进行文本内容理解的著作,也是一本系统讲解NLP算法的著作,是作者在NLP和内容理解领域多年经验的总结。
本书结合内容理解的实际业务场景,系统全面、循序渐进地讲解了各种NLP算法以及如何用这些算法高效地解决内容理解方面的难题,主要包括如下几个方面的内容:
(1)文本特征表示
文本特征表示是NLP的基石,也是内容理解的基础环节,本书详细讲解了离散型表示方法和分布型表示方法等特征表示方法及其应用场景,还讲解了词向量的评判标准。
(2)内容重复理解
详细讲解了标题重复、段落重复、文章重复的识别方法和去重算法。
(3)内容通顺度识别及纠正
详细讲解了内容通顺度的识别方法以及纠正不通顺内容的方法。
(4)内容质量
详细讲解了多种内容质量相关的算法,以及如何搭建高质量的知识问答体系的流程。
(5)标签体系构建
详细讲解了针对内容理解的标签体系的建设流程和方法,以及多种相关算法。
(6)文本摘要生成
详细讲解了抽取式文本摘要和生成式文本摘要两种流行的文本摘要生成方法,以及文本摘要的常用数据集和文本摘要评价方法。
(7)文本纠错
详细讲解了文本纠错的传统方法、深度学习方法、工业界解决方案,以及常用的文本纠错工具的安装和使用。 -
作者介绍
-
目录
前言
第1章 文本特征表示
1.1 语料与语料预处理
1.1.1 语料和语料库
1.1.2 语料预处理
1.2 文本特征表示方法
1.2.1 离散型特征表示方法
1.2.2 分布型特征表示方法
1.3 词向量的评判标准
1.3.1 内部评估
1.3.2 外在评估
1.4 本章小结
第2章 内容重复理解
2.1 标题重复
2.1.1 标题符号规整化处理
2.1.2 Jieba分词
2.1.3 LAC分词
2.1.4 基于分词及字符串等方式进行重复识别
2.2 段落重复识别实例
2.2.1 段落重复识别
2.2.2 基于N-gram算法进行内容去重
2.2.3 平滑处理技术
2.3 基于相似度计算的文章判重
2.3.1 文本相似度计算任务的分析
2.3.2 距离度量方式
2.3.3 基于SimHash算法进行文本重复检测
2.4 本章小结
第3章 内容通顺度识别及纠正
3.1 数据增强
3.2 基于FastText算法的句子通顺度识别
3.2.1 CBOW模型
3.2.2 FastText算法原理
3.2.3 FastText算法实战
3.3 基于TextCNN算法的分类任务实现
3.3.1 专有名词简介
3.3.2 算法介绍
3.3.3 参数调优经验总结
3.3.4 基于Keras工具实现TextCNN算法
3.4 基于TextRNN算法的分类任务实现
3.4.1 LSTM和BiLSTM
3.4.2 TextCNN和TextRNN识别效果对比
3.5 基于Seq2Seq模型的纠正策略
3.5.1 Seq2Seq模型原理
3.5.2 纠正不通顺句子的方法
3.6 本章小结
第4章 内容质量
4.1 GBDT算法
4.1.1 GBDT算法概述
4.1.2 负梯度拟合
4.1.3 GBDT回归算法
4.1.4 GBDT分类算法
4.2 XGBoost算法
4.2.1 从GBDT到XGBoost
4.2.2 XGBoost损失函数
4.2.3 XGBoost损失函数的优化求解
4.2.4 XGBoost算法流程
4.2.5 XGBoost算法参数及调优
4.3 知识问答质量体系的搭建
4.3.1 知识问答质量体系建立的意义
4.3.2 整体的项目实施方案
4.3.3 知识问答质量体系搭建流程
4.4 本章小结
第5章 标签体系构建
5.1 标签体系
5.1.1 标签体系的重要性
5.1.2 标签体系的分类
5.1.3 构建标签体系
5.2 TF-IDF算法
5.2.1 TF-IDF算法介绍
5.2.2 TF-IDF算法实现
5.3 PageRank算法
5.4 TextRank算法
5.4.1 TextRank算法的使用场景
5.4.2 TextRank算法的优缺点
5.5 本章小结
第6章 文本摘要生成
6.1 文本摘要相关介绍
6.1.1 文本摘要问题定义
6.1.2 文本摘要分类
6.1.3 文本摘要的技术和方法
6.2 基于无监督的抽取式文本摘要
6.2.1 基于经验的文本摘要
6.2.2 基于主题模型的文本摘要
6.2.3 基于图的文本摘要
6.2.4 基于特征评分的文本摘要
6.2.5 基于聚类的文本摘要
6.3 基于有监督的抽取式文本摘要
6.4 基于深度神经网络的生成式文本摘要
6.5 文本摘要常用数据集
6.6 文本摘要评价方法
6.6.1 自动评价方法
6.6.2 人工评价方法
6.7 本章小结
第7章 文本纠错
7.1 错误来源及类型
7.2 文本纠错的3种传统方法
7.2.1 模板匹配
7.2.2 编辑距离匹配
7.2.3 HANSpeller++框架
7.3 文本纠错深度学习方法
7.3.1 英文文本纠错方法
7.3.2 中文文本纠错方法
7.4 工业界解决方法
7.4.1 3阶段级联的纠错方案
7.4.2 符合多种场景的通用纠错方案
7.4.3 保险文本的纠错方案
7.5 文本纠错工具
7.5.1 pycorrector
7.5.2 xmnlp
7.6 本章小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...