-
-
- Python中文自然语言处理基础与实战(第2版微课版大数据应用开发十四五职业教育国家规划教材人工智能与大数据技术精品系列教材)
-
- 作者:编者:肖刚//张良均|责编:初美呈
- 出版社:人民邮电
- ISBN:9787115673220
-
售价:27.92
-
内容大纲
本书以Python中文自然语言处理的常用技术与真实案例相结合的方式,深入浅出地介绍Python中文自然语言处理的重要内容。全书共13章,内容包括绪论、语料库、正则表达式、中文分词、词性标注和命名实体识别、关键词提取、文本向量化、文本分类和文本聚类、文本情感分析、NLP中的深度学习技术、智能问答系统、大语言模型以及基于TipDM大数据挖掘建模平台实现垃圾短信分类。全书大部分章节都包含实训和课后习题,旨在通过练习和操作实践,帮助读者巩固所学的内容。
本书可用于“1+X”大数据应用开发(Python)职业技能等级证书(高级)的教学和培训,也可作为高校数据科学或人工智能相关专业的教材,还可作为自然语言处理爱好者的自学用书。
-
作者介绍
-
目录
第1章 绪论
1.1 NLP概述
1.1.1 NLP的发展历程
1.1.2 NLP的研究内容
1.1.3 NLP的应用
1.1.4 NLP与人工智能技术的关系
1.1.5 学习NLP的困难
1.1.6 中文NLP的挑战
1.2 中文NLP基本流程
1.2.1 语料获取
1.2.2 语料预处理
1.2.3 文本向量化
1.2.4 模型构建
1.2.5 模型训练
1.2.6 模型评价
1.3 NLP的Python开发环境
1.3.1 NLP与Python
1.3.2 Anaconda简介与安装
1.3.3 Anaconda中应用的简介
1.4 任务:构建中文文本高频词云图
小结
课后习题
第2章 语料库
2.1 语料库概述
2.1.1 语料库的特点
2.1.2 语料库的用途
2.2 语料库种类与构建原则
2.2.1 语料库种类
2.2.2 语料库构建原则
2.3 语料库的获取
2.3.1 中文开源语料库
2.3.2 网络在线语料库
2.4 任务:网络在线语料分析
2.5 任务:构建电影评论语料库
小结
实训
实训1 构建语料库
实训2 《七剑下天山》语料库分析
课后习题
第3章 正则表达式
3.1 正则表达式简介
3.1.1 正则表达式的应用范围
3.1.2 正则表达式函数
3.1.3 正则表达式元字符
3.2 任务:正则表达式应用
3.2.1 常用正则表达式搭配
3.2.2 常用正则表达式示例
小结
实训
实训1 过滤《三国志》中的非中文字符
实训2 提取地名与邮编
实训3 提取网页标签中的文本
课后习题
第4章 中文分词
4.1 中文分词简介
4.1.1 中文分词的难点
4.1.2 中文分词方法
4.2 基于规则的分词
4.2.1 正向最大匹配法
4.2.2 逆向最大匹配法
4.2.3 双向最大匹配法
4.3 基于统计的分词
4.3.1 HMM
4.3.2 中文分词与HMM
4.4 基于深度学习的分词
4.4.1 基于深度学习的分词的主要步骤
4.4.2 基于深度学习的中文分词示例
4.5 中文分词工具jieba
4.5.1 jieba算法简介
4.5.2 jieba分词模式
4.6 任务:中文分词的应用
4.6.1 HMM中文分词
4.6.2 提取新闻文本的高频词
小结
实训
实训1 使用HMM进行中文分词
实训2 提取新闻文本中的高频词
课后习题
第5章 词性标注和命名实体识别
5.1 词性标注简介
5.2 词性标注模型
5.2.1 基于HMM的词性标注
5.2.2 基于深度学习的词性标注
5.3 基于jieba的词性标注
5.4 命名实体识别
5.4.1 命名实体识别简介
5.4.2 基于CRF模型的中文命名实体识别
5.4.3 基于深度学习的中文命名实体识别
5.5 任务:使用sklearn-crfsuite库进行中文命名实体识别
5.5.1 sklearn-crfsuite库简介
5.5.2 使用sklearn-crfsuite库进行中文命名实体识别的流程
小结
实训 中文命名实体识别
课后习题
第6章 关键词提取
6.1 关键词提取简介
6.2 关键词提取方法
6.2.1 基于统计的方法
6.2.2 基于语义的方法
6.3 任务:自动提取文本关键词
6.3.1 文本预处理
6.3.2 TF-IDF算法
6.3.3 TextRank算法
6.3.4 LSI算法
小结
实训
实训1 文本预处理
实训2 使用TF-IDF算法提取关键词
实训3 使用TextRank算法提取关键词
实训4 使用LSA算法提取关键词
课后习题
第7章 文本向量化
7.1 文本向量化简介
7.2 文本向量化的离散化表示
7.2.1 独热编码
7.2.2 BoW模型
7.2.3 TF-IDF方法
7.3 文本向量化的分布式表示
7.3.1 常见的文本向量化的分布式表示的方法
7.3.2 Word2Vec模型
7.3.3 Doc2Vec模型
7.4 任务:文本相似度计算
7.4.1 Word2Vec词向量的训练
7.4.2 Doc2Vec段落向量的训练
7.4.3 计算文本相似度
小结
实训
实训1 实现基于Word2Vec模型的新闻语料词向量训练
实训2 实现基于Doc2Vec模型的新闻语料段落向量训练
实训3 使用Word2Vec模型和Doc2Vec模型计算新闻文本的相似度
课后习题
第8章 文本分类和文本聚类
8.1 文本挖掘简介
8.2 文本分类
8.2.1 文本分类算法
8.2.2 文本分类的应用
8.2.3 中文文本分类的步骤
8.3 文本聚类
8.3.1 文本聚类算法
8.3.2 文本聚类的应用
8.3.3 中文文本聚类的步骤
8.4 任务:垃圾短信分类
8.4.1 数据读取
8.4.2 数据预处理
8.4.3 词频统计
8.4.4 分类
8.4.5 模型评价
8.5 任务:新闻文本聚类
8.5.1 数据读取
8.5.2 文本预处理
8.5.3 特征提取
8.5.4 聚类
8.5.5 模型评价
小结
实训
实训1 基于朴素贝叶斯的新闻分类
实训2 书名文本聚类分析
课后习题
第9章 文本情感分析
9.1 文本情感分析简介
9.1.1 文本情感分析的主要内容
9.1.2 文本情感分析的常见应用
9.2 文本情感分析的常用方法
9.2.1 基于情感词典的分析方法
9.2.2 机器学习方法
9.2.3 深度学习方法
9.3 任务:基于情感词典的文本情感分析
9.4 任务:基于机器学习的文本情感分析
9.4.1 基于朴素贝叶斯分类的文本情感分析
9.4.2 基于snownlp的文本情感分析
小结
实训
实训1 基于情感词典的豆瓣评论文本情感分析
实训2 基于朴素贝叶斯的豆瓣评论文本情感分析
实训3 基于snownlp的豆瓣评论文本情感分析
课后习题
第10章 NLP中的深度学习技术
10.1 RNN概述
10.2 RNN结构
10.2.1 多对一结构
10.2.2 等长的多对多结构
10.2.3 非等长结构
10.3 任务:基于LSTM的文本分类与情感分析
10.3.1 文本分类
10.3.2 情感分析
10.4 任务:基于Seq2Seq的机器翻译
10.4.1 语料预处理
10.4.2 构建模型
10.4.3 定义优化器及损失函数
10.4.4 训练模型
10.4.5 翻译
小结
实训
实训1 实现基于LSTM的文本分类
实训2 实现基于LSTM的情感分析
实训3 实现基于Seq2Seq的机器翻译
课后习题
第11章 智能问答系统
11.1 智能问答系统简介
11.2 智能问答系统的主要组成部分
11.2.1 问题理解
11.2.2 知识检索
11.2.3 答案生成
11.3 任务:基于Seq2Seq的智能问答系统
11.3.1 读取语料
11.3.2 语料预处理
11.3.3 模型构建
11.3.4 模型训练
11.3.5 模型评价
小结
实训 基于Seq2Seq模型的聊天机器人
课后习题
第12章 大语言模型
12.1 大语言模型简介
12.2 中文大语言模型
12.2.1 国内中文大语言模型
12.2.2 调用大语言模型API
12.3 讯飞星火认知大模型
12.3.1 讯飞星火认知大模型简介
12.3.2 调用讯飞星火认知大模型API
12.4 讯飞星火认知大模型API程序开发应用
12.4.1 常见应用
12.4.2 API开发应用示例
小结
实训 API开发相关应用
课后习题
第13章 基于TipDM大数据挖掘建模平台实现垃圾短信分类
13.1 在TipDM大数据挖掘建模平台上配置垃圾短信分类示例的流程
13.2 数据读取
13.3 数据预处理
13.4 模型构建与训练
小结
实训 基于TipDM大数据挖掘建模平台实现基于朴素贝叶斯的新闻分类
课后习题