-
内容大纲
本书提供了一个指导读者使用自然语言处理(NLP)的混合方法(包括神经网络和知识图谱的结合)的实践指南。为此,本书首先介绍了主要的构建模块,然后描述了如何将它们集成起来以支持现实世界NLP应用的有效实现。为了说明所描述的想法,本书还包括一套全面的实验和练习,涵盖各种各样的自然语言处理任务在选定的领域和语料库中使用的不同的算法。本书面向语言学、计算机科学和数学专业的学生,也适合自然语言处理、人工智能、机器学习和深度学习领域的读者阅读。 -
作者介绍
-
目录
推荐序一
推荐序二
译者序
前言
第一部分 预备知识和构建模块
第1章 混合自然语言处理简介
1.1 知识图谱、嵌入和语言模型简史
1.2 自然语言处理中知识图谱和神经网络方法的结合
第2章 单词、意义和知识图谱嵌入
2.1 引言
2.2 分布式单词表示
2.3 词嵌入
2.4 意义和概念嵌入
2.5 知识图谱嵌入
2.6 本章小结
第3章 理解词嵌入和语言模型
3.1 引言
3.2 语言模型
3.2.1 统计语言模型
3.2.2 神经语言模型
3.3 NLP迁移学习的预训练模型微调
3.3.1 ELMo
3.3.2 GPT
3.3.3 BERT
3.4 机器人检测中预训练语言模型的微调
3.4.1 实验结果与讨论
3.4.2 使用Transformer库对BERT进行微调
3.5 本章小结
第4章 从文本中捕获意义作为词嵌入
4.1 引言
4.2 下载一个小文本语料库
4.3 一种学习词嵌入的算法
4.4 使用Swivelprep生成共现矩阵
4.5 从共现矩阵中学习嵌入
4.6 读取并检查存储的二进制嵌入
4.7 练习:从古腾堡工程中创建词嵌入
4.7.1 下载语料库并进行预处理
4.7.2 学习嵌入
4.7.3 检查嵌入
4.8 本章小结
第5章 捕获知识图谱嵌入
5.1 引言
5.2 知识图谱嵌入
5.3 为WordNet创建嵌入
5.3.1 选择嵌入算法:HolE
5.3.2 将WordNet知识图谱转换为所需输入
5.3.3 学习嵌入
5.3.4 检查嵌入结果
5.4 练习
5.4.1 练习:在自己的知识图谱上训练嵌入
5.4.2 练习:检查WordNet 3.0的预计算嵌入
5.5 本章小结
第二部分 神经网络与知识图谱的结合
第6章 从文本语料库、知识图谱和语言模型中构建混合表达
6.1 引言
6.2 准备工作和说明
6.3 Vecsigrafo的概念及构建方式
6.4 实现
6.5 训练Vecsigrafo
6.5.1 标记化和词义消歧
6.5.2 词汇表和共现矩阵
6.5.3 从共现矩阵学习嵌入
6.5.4 检查嵌入
6.6 练习:探索一个预先计算好的Vecsigrafo
6.7 从Vecsigrafo到Transigrafo
6.7.1 安装设置
6.7.2 训练Transigrafo
6.7.3 扩展知识图谱的覆盖范围
6.7.4 评估Transigrafo
6.7.5 检查Transigrafo中的义项嵌入
6.7.6 探索Transigrafo嵌入的稳定性
6.7.7 额外的反思
6.8 本章小结
第7章 质量评估
7.1 引言
7.2 评估方法的概述
7.3 练习1:评估单词和概念嵌入
7.3.1 可视化探索
7.3.2 内在评估
7.3.3 词汇预测图
7.3.4 外在评估
7.4 练习2:评价通过嵌入获取的关系知识
7.4.1 下载embrela项目
7.4.2 下载生成的数据集
7.4.3 加载待评估的嵌入
7.4.4 学习模型
7.4.5 分析模型的结果
7.4.6 数据预处理:合并且增加字段
7.4.7 计算范围阈值和偏差数据集检测
7.4.8 发现统计上有意义的模型
7.4.9 关系型知识的评估结论
7.5 案例研究:评估和对比Vecsigrafo嵌入
7.5.1 比较研究
7.5.2 讨论
7.6 本章小结
第8章 利用Vecsigrafo捕获词法、语法和语义信息
8.1 引言
8.2 方法
8.2.1 Vecsigrafo:基于语料的单词-概念嵌入
8.2.2 联合嵌入空间
8.2.3 嵌入的评估
8.3 评估
8.3.1 数据集
8.3.2 单词相似度
8.3.3 类比推理
8.3.4 单词预测
8.3.5 科学文档的分类
8.4 讨论
8.5 练习:使用surface form对科学文献进行分类
8.5.1 导入所需的库
8.5.2 下载surface form的词嵌入和SciGraph论文
8.5.3 读取并准备分类数据集
8.5.4 surface form的词嵌入
8.5.5 创建嵌入层
8.5.6 训练一个卷积神经网络
8.6 本章小结
第9章 知识图谱的词嵌入空间对齐与应用
9.1 引言
9.2 概述及可能的应用
9.2.1 知识图谱的补全
9.2.2 超越多语言性:跨模态的词嵌入
9.3 词嵌入空间的对齐技术
9.3.1 线性对齐
9.3.2 非线性对齐
9.4 练习:寻找古代英语和现代英语的对应
9.4.1 下载小型文本语料库
9.4.2 学习基于老莎士比亚语料库的Swivel词嵌入
9.4.3 在WordNet之上加载UMBC的Vecsigrafo
9.4.4 练习的结论
9.5 本章小结
第三部分 应用
第10章 一种虚假信息分析的混合方法
10.1 引言
10.2 虚假信息检测
10.2.1 定义和背景
10.2.2 技术方法
10.3 应用:构建断言数据库
10.3.1 训练一个语义断言编码器
10.3.2 创建嵌入的一个语义索引并进行探索
10.3.3 以STS-B开发数据集填充索引
10.3.4 为一个断言数据集创建另一个索引
10.3.5 加载数据集到一个Pandas的DataFrame
10.3.6 构建一个断言数据库的总结
10.4 应用:假新闻和欺骗性语言检测
10.4.1 使用深度学习的基本文档分类
10.4.2 使用HolE的嵌入
10.4.3 使用Vecsigrafo UMBC WNet的嵌入
10.4.4 HoLE和UMBC嵌入的结合
10.4.5 讨论与结果
10.5 通过一个知识图谱得到传播虚假信息的评分
10.5.1 Data Commons Claim-Review的知识图谱
10.5.2 不可信度评分的传播
10.6 本章小结
第11章 科学领域中文本与视觉信息的联合学习
11.1 引言
11.2 图例-标题对应分析的模型与架构
11.3 数据集
11.4 评估图例-标题的对应分析任务
11.5 图例-标题的对应分析与图像-句子匹配的对比
11.6 标题与图例的分类
11.7 教科书问答的多模态机器理解
11.8 图例-标题对应分析的练习
11.8.1 预备步骤
11.8.2 图例-标题的对应分析
11.8.3 图像-句子匹配
11.8.4 标题/图例分类
11.8.5 教科书问答
11.9 本章小结
第12章 展望自然语言处理的未来
12.1 最终的评论、想法和愿景
12.2 趋势是什么?社会各界的意见
参考文献
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...