-
内容大纲
本书以Python自然语言处理的常用技术与真实案例相结合的方式,深入浅出地介绍Python自然语言处理的重要内容。全书共12章,内容包括绪论、语料库、正则表达式、中文分词技术、词性标注与命名实体识别、关键词提取、文本向量化、文本分类与文本聚类、文本情感分析、NLP中的深度学习技术、智能问答系统,以及基于TipDM大数据挖掘建模平台实现垃圾短信分类。本书包含课后习题和实训,帮助读者通过练习和操作实践,巩固所学内容。
本书可作为“1+X”证书制度试点工作中“大数据应用开发(Python)”职业技能等级证书的教学和培训用书,也可以作为高校数据科学或人工智能相关专业的教材,还可作为机器学习爱好者的自学用书。 -
作者介绍
-
目录
第1章 绪论
1.1 自然语言处理概述
1.1.1 NLP的发展历程
1.1.2 NLP研究内容
1.1.3 NLP的几个应用场景
1.1.4 NLP与人工智能技术
1.1.5 学习NLP的难点
1.2 NLP基本流程
1.2.1 语料获取
1.2.2 语料预处理
1.2.3 文本向量化
1.2.4 模型构建
1.2.5 模型训练
1.2.6 模型评价
1.3 NLP的开发环境
1.3.1 Anaconda安装
1.3.2 Anaconda应用介绍
小结
课后习题
第2章 语料库
2.1 语料库概述
2.1.1 语料库简介
2.1.2 语料库的用途
2.2 语料库的种类与构建原则
2.2.1 语料库的种类
2.2.2 语料库的构建原则
2.3 NLTK
2.3.1 NLTK简介
2.3.2 安装步骤
2.3.3 NLTK中函数的使用
2.4 语料库的获取
2.4.1 获取NLTK语料库
2.4.2 获取网络在线语料库
2.5 任务:语料库的构建与应用
2.5.1 构建作品集语料库
2.5.2 武侠小说语料库分析
小结
实训
实训1 构建语料库
实训2 《七剑下天山》语料库分析
课后习题
第3章 正则表达式
3.1 正则表达式的概念
3.1.1 正则表达式函数
3.1.2 正则表达式的元字符
3.2 任务:正则表达式的应用
3.2.1 《西游记》字符过滤
3.2.2 自动提取人名与电话号码
3.2.3 提取网页标签信息
小结
实训
实训1 过滤《三国志》中的字符
实训2 提取地名与邮编
实训3 提取网页标签中的文本
课后习题
第4章 中文分词技术
4.1 中文分词简介
4.2 基于规则分词
4.2.1 正向匹配法
4.2.2 逆向匹配法
4.2.3 双向匹配法
4.3 基于统计分词
4.3.1 n元语法模型
4.3.2 隐马尔可夫模型相关概念
4.4 中文分词工具jieba
4.4.1 基本步骤
4.4.2 分词模式
4.5 任务:中文分词的应用
4.5.1 HMM中文分词
4.5.2 提取新闻文本中的高频词
小结
实训
实训1 使用HMM进行中文分词
实训2 提取文本中的高频词
课后习题
第5章 词性标注与命名实体识别
5.1 词性标注
5.1.1 词性标注简介
5.1.2 词性标注规范
5.1.3 jieba词性标注
5.2 命名实体识别
5.2.1 命名实体识别简介
5.2.2 CRF模型
5.3 任务:中文命名实体识别
5.3.1 sklearn-crfsuite库简介
5.3.2 命名实体识别流程
小结
实训 中文命名实体识别
课后习题
第6章 关键词提取
6.1 关键词提取技术简介
6.2 关键词提取算法
6.2.1 TF-IDF算法
6.2.2 TextRank算法
6.2.3 LSA与LDA算法
6.3 任务:自动提取文本关键词
小结
实训
实训1 文本预处理
实训2 使用TF-IDF算法提取关键词
实训3 使用TextRank算法提取关键词
实训4 使用LSA算法提取关键词
课后习题
第7章 文本向量化
7.1 文本向量化简介
7.2 文本离散表示
7.2.1 独热表示
7.2.2 BOW模型
7.2.3 TF-IDF表示
7.3 文本分布式表示
7.3.1 Word2Vec模型
7.3.2 Doc2Vec模型
7.4 任务:文本相似度计算
7.4.1 Word2Vec词向量的训练
7.4.2 Doc2Vec段落向量的训练
7.4.3 计算文本的相似度
小结
实训
实训1 实现基于Word2Vec模型的新闻语料词向量训练
实训2 实现基于Doc2Vec模型的新闻语料段落向量训练
实训3 使用Word2Vec模型和Doc2Vec模型计算新闻文本的相似度
课后习题
第8章 文本分类与文本聚类
8.1 文本挖掘简介
8.2 文本分类常用算法
8.3 文本聚类常用算法
8.4 文本分类与文本聚类的步骤
8.5 任务:垃圾短信分类
8.6 任务:新闻文本聚类
小结
实训
实训1 基于朴素贝叶斯的新闻分类
实训2 食品种类安全问题聚类分析
课后习题
第9章 文本情感分析
9.1 文本情感分析简介
9.1.1 文本情感分析的主要内容
9.1.2 文本情感分析的常见应用
9.2 情感分析的常用方法
9.2.1 基于情感词典的方法
9.2.2 基于文本分类的方法
9.2.3 基于LDA主题模型的方法
9.3 任务:基于情感词典的情感分析
9.4 任务:基于文本分类的情感分析
9.4.1 基于朴素贝叶斯分类的情感分析
9.4.2 基于SnowNLP库的情感分析
9.5 任务:基于LDA主题模型的情感分析
9.5.1 数据处理
9.5.2 模型训练
9.5.3 结果分析
小结
实训
实训1 基于词典的豆瓣评论文本情感分析
实训2 基于朴素贝叶斯算法的豆瓣评论文本情感分析
实训3 基于SnowNLP的豆瓣评论文本情感分析
实训4 基于LDA主题模型的豆瓣评论文本情感分析
课后习题
第10章 NLP中的深度学习技术
10.1 循环神经网络概述
10.2 RNN结构
10.2.1 多对一结构
10.2.2 等长的多对多结构
10.2.3 非等长结构(Seq2Seq模型)
10.3 深度学习工具
10.3.1 TensorFlow简介
10.3.2 基于TensorFlow的深度学习库Keras
10.4 任务:基于LSTM的文本分类与情感分析
10.4.1 文本分类
10.4.2 情感分析
10.5 任务:基于Seq2Seq的机器翻译
10.5.1 语料预处理
10.5.2 构建模型
10.5.3 定义优化器和损失函数
10.5.4 训练模型
10.5.5 翻译
小结
实训
实训1 实现基于LSTM模型的新闻分类
实训2 实现基于LSTM模型的携程网评论情感分析
实训3 实现基于Seq2Seq和GPU的机器翻译
课后习题
第11章 智能问答系统
11.1 智能问答系统简介
11.2 智能问答系统的主要组成部分
11.2.1 问题理解
11.2.2 知识检索
11.2.3 答案生成
11.3 任务:基于Seq2Seq模型的聊天机器人
11.3.1 读取语料库
11.3.2 文本预处理
11.3.3 模型构建
11.3.4 模型训练
11.3.5 模型评价
小结
实训 基于Seq2Seq模型的聊天机器人
课后习题
第12章 基于TipDM大数据挖掘建模平台实现垃圾短信分类
12.1 平台简介
12.1.1 实训库
12.1.2 数据连接
12.1.3 实训数据
12.1.4 我的实训
12.1.5 系统算法
12.1.6 个人算法
12.2 实现垃圾短信分类
12.2.1 数据源配置
12.2.2 文本预处理
12.2.3 朴素贝叶斯分类模型
小结
实训 实现基于朴素贝叶斯的新闻分类
课后习题
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...