-
内容大纲
本书从自然语言处理基础开始,逐步深入各种自然语言处理的热点前沿技术,使用了Java和Python两门语言精心编排了大量代码实例,契合公司实际工作场景技能,侧重实战。
全书共19章,详细讲解中文分词、词性标注、命名实体识别、依存句法分析、语义角色标注、文本相似度算法、语义相似度计算等内容,同时提供配套完整实战项目,例如对话机器人实战、搜索引擎项目实战、推荐算法系统实战。
本书理论联系实践,深入浅出,知识点全面。通过阅读本书,读者不仅可以理解自然语言处理知识,还能通过实战项目案例更好地将理论融入实际工作中。
本书适合自然语言处理的初学者阅读,有一定经验的算法工程师也可从书中获取很多有价值的知识,并通过实战项目更好地理解自然语言处理的核心内容。 -
作者介绍
陈敬雷,充电了么创始人,中国首席数据官联盟专家委员。拥有十几年互联网从业经验,在技术领域,尤其在大数据和人工智能方向有丰富的算法工程落地实战经验,其中在猎聘网任职期间主导的推荐算法系统项目获得公司优秀项目奖,推荐效果得到5倍的提升。目前专注于大数据和人工智能驱动的上班族在线教育行业,研发了充电了么App,用深度学习算法、NLP、推荐引擎等技术来高效提升在线学习效率。 -
目录
第1章 自然语言处理技术概述
1.1 自然语言处理介绍
1.1.1 自然语言处理的定义及其在实际工作中的定位
1.1.2 自然语言处理的经典应用场景
1.2 自然语言处理的技能要求和职业发展路径
1.2.1 大数据部门组织架构和自然语言处理职位所处位置
1.2.2 自然语言处理的职位介绍和技能要求
1.2.3 自然语言处理的职业生涯规划和发展路径
1.2.4 自然语言处理的市场平均薪资水平
第2章 中文分词
2.1 中文分词原理
2.2 规则分词
2.2.1 正向最大匹配法
2.2.2 逆向最大匹配法
2.2.3 双向最大匹配法
2.3 机器学习统计分词
2.3.1 隐马尔可夫模型分词
2.3.2 感知器分词
2.3.3 CRF分词
2.4 分词工具实战
2.4.1 CRF++工具包实战
2.4.2 Python的Jieba分词
2.4.3 Java的HanLP分词
2.4.4 Java的IK分词
2.4.5 Java的mmseg4j分词
第3章 词性标注
3.1 词性标注原理
3.1.1 词性介绍
3.1.2 HMM词性标注
3.1.3 感知器词性标注
3.1.4 CRF词性标注
3.2 词性标注工具实战
3.2.1 Python的Jieba词性标注
3.2.2 Java的HanLP词性标注
第4章 命名实体识别
4.1 命名实体识别原理
4.2 基于HMM角色标注的命名实体识别
4.2.1 中国人名识别
4.2.2 地名识别
4.2.3 机构公司名识别
4.3 基于线性模型的命名实体识别
4.3.1 感知器命名实体识别
4.3.2 CRF命名实体识别
第5章 依存句法分析
5.1 依存句法分析原理
5.2 HanLP基于神经网络依存句法分析器
第6章 语义角色标注
6.1 语义角色标注原理
6.2 语义角色标注的设计框架
6.2.1 生成语义生成树
6.2.2 剪枝
6.2.3 角色识别
6.2.4 角色分类
第7章 文本相似度算法
7.1 字符串编辑距离
7.1.1 算法原理
7.1.2 Java代码实现
7.1.3 Python代码实现
7.2 余弦相似度
7.2.1 算法原理
7.2.2 Java代码实现
7.2.3 Python代码实现
第8章 语义相似度计算
8.1 《同义词词林》
8.1.1 算法原理
8.1.2 代码实战
8.2 基于深度学习的语义相似度
8.2.1 DSSM
8.2.2 CNN-DSSM
8.2.3 LSTM-DSSM
第9章 词频-逆文档频率
9.1 TF-IDF算法原理
9.2 Java代码实现TF-IDF
9.3 TF-IDF的Python代码实现
第10章 条件随机场
10.1 算法原理
10.2 开源工具实战
第11章 新词发现与短语提取
11.1 新词发现
11.2 短语提取
第12章 搜索引擎SolrCloud和Elasticsearch
12.1 全文搜索引擎介绍及原理
12.2 Lucene搜索引擎
12.3 SolrCloud
12.3.1 SolrCloud介绍及原理
12.3.2 SolrCloud实战
12.4 Elasticsearch
12.4.1 Elasticsearch介绍及原理
12.4.2 Elasticsearch实战
第13章 Word2Vec词向量模型
13.1 Word2Vec词向量模型介绍及原理
13.2 Word2Vec词向量模型实战
13.2.1 Spark分布式实现Word2Vec词向量模型
13.2.2 谷歌开源Word2Vec工具
第14章 文本分类
14.1 文本分类介绍及相关算法
14.2 朴素贝叶斯算法
14.2.1 算法原理
14.2.2 源码实战
14.3 支持向量机
14.3.1 算法原理
14.3.2 源码实战
14.4 Python开源快速文本分类器FastText
14.4.1 FastText框架核心原理
14.4.2 FastText和Word2Vec的区别
14.4.3 FastText实战
14.5 BERT文本分类
14.5.1 BERT模型介绍及原理
14.5.2 BERT中文文本分类实战
第15章 文本聚类
15.1 文本聚类介绍及相关算法
15.2 K-means文本聚类
15.2.1 算法原理
15.2.2 源码实战
15.3 LDA主题词——潜在狄利克雷分布模型
15.3.1 算法原理
15.3.2 源码实战
第16章 关键词提取和文本摘要
16.1 关键词提取
16.1.1 关键词提取介绍及相关算法
16.1.2 基于Python的关键词提取实战
16.1.3 基于Java的关键词提取实战
16.2 文本摘要
16.2.1 文本摘要介绍及相关算法
16.2.2 基于Python的文本摘要实战
16.2.3 基于Java的文本摘要实战
第17章 自然语言模型
17.1 自然语言模型原理与介绍
17.2 N-Gram统计语言模型
17.3 LSTM神经网络语言模型
第18章 分布式深度学习实战
18.1 TensorFlow深度学习框架
18.1.1 TensorFlow原理和介绍
18.1.2 TensorFlow安装部署
18.2 MXNet深度学习框架
18.2.1 MXNet原理和介绍
18.2.2 MXNet安装部署
18.3 神经网络算法
18.3.1 多层感知器算法
18.3.2 卷积神经网络
18.3.3 循环神经网络
18.3.4 长短期记忆神经网络
18.3.5 端到端神经网络
18.3.6 生成对抗网络
18.3.7 深度强化学习
18.3.8 TensorFlow分布式训练实战
18.3.9 分布式TensorFlowonKubernetes集群实战
第19章 自然语言处理项目实战
19.1 对话机器人项目实战
19.1.1 对话机器人原理与介绍
19.1.2 基于TensorFlow的对话机器人
19.1.3 基于MXNet的对话机器人
19.1.4 基于深度强化学习的机器人
19.1.5 基于搜索引擎的对话机器人
19.1.6 对话机器人的Web服务工程化
19.2 搜索引擎项目实战
19.2.1 搜索引擎系统架构设计
19.2.2 搜索框架技术选型
19.2.3 搜索相关度排序
19.2.4 搜索综合排序算法
19.2.5 搜索内容意图识别和智能纠错
19.2.6 搜索智能联想词
19.2.7 搜索输入框默认关键词猜你喜欢
19.2.8 相关搜索关键词推荐
19.2.9 排序学习与NDCG搜索评价指标
19.2.10 个性化搜索猜你喜欢
19.2.11 搜索此关键词的用户最终购买算法
19.2.12 搜索大数据平台及数据仓库建设
19.3 推荐算法系统实战
19.3.1 推荐系统架构设计
19.3.2 推荐数据仓库集市
19.3.3 ETL数据处理
19.3.4 协同过滤用户行为挖掘
19.3.5 ContentBase文本挖掘算法
19.3.6 用户画像兴趣标签提取算法
19.3.7 基于用户心理学的模型推荐
19.3.8 多策略融合算法
19.3.9 准实时在线学习推荐引擎
19.3.10 Redis缓存处理
19.3.11 分布式搜索
19.3.12 推荐二次排序算法
19.3.13 在线Web实时推荐引擎服务
19.3.14 在线AB测试推荐效果评估
19.3.15 离线AB测试推荐效果评估
19.3.16 推荐位管理平台
参考资料
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...