-
内容大纲
听觉信息处理技术的创新能够推动实现高度智能化机器感知系统的发展,本分册主要介绍了国内外听觉信息处理方面的研究现状和阶段性成果,通过对人类言语产生与听觉机理,听觉机理的计算理论与方法,语音信号处理,语音识别声学建模,特殊场景语音识别,声纹与语种识别,韵律、情绪及音乐分析,统计语音合成,口语对话系统等技术研究成果的阐述与分析,展示我国在这些研究领域的优势与特色,并提出未来的技术挑战与发展方向。 -
作者介绍
-
目录
1 言语产生和听觉的机理及其研究/党建武赵彬魏建国
1.1 言语产生和感知的机理
1.1.1 有声语言产生的条件
1.1.2 语音产生的机理
1.1.3 语音感知的机理
1.2 声源的产生与声道的调制
1.2.1 声源产生机理与感知
1.2.2 声道的调制机理
1.3 言语产生与感知的相互作用
1.3.1 言语链
1.3.2 言语感知运动理论
1.3.3 言语感知机理研究的发展与挑战
1.3.4 镜像神经元和言语听觉-运动整合
1.4 言语的脑功能研究
1.4.1 言语的脑认知研究发展
1.4.2 言语的认知神经机理
1.4.3 言语功能障碍及康复训练
1.5 语音信号处理方法简介
1.5.1 基于产生机理的信号处理方法
1.5.2 基于感知机理的信号处理方法
参考文献
2 语音增强与麦克风阵列信号处理/付中华
2.1 信号模型
2.1.1 时域信号模型
2.1.2 频域信号模型与短时傅里叶变换技术
2.2 评价方法
2.2.1 主观评价方法与指标
2.2.2 客观评价方法与指标
2.3 单声道语音增强
2.3.1 时域维纳滤波器增强原理
2.3.2 频域维纳滤波器增强原理
2.3.3 噪声功率谱的估计
2.3.4 基于深度学习的语音增强
2.4 麦克风阵列语音增强
2.4.1 固定波束
2.4.2 自适应波束
2.4.3 后置滤波技术
参考文献
3 语音识别声学建模/俞凯徐波戴礼荣
3.1 统计语音识别概述
3.2 基于隐马尔可夫模型的经典声学建模方法
3.2.1 HMM
3.2.2 GMM—IMM在语音识别中的使用
3.2.3 模型改进及问题分析
3.2.4 自适应技术
3.2.5 鉴别性训练技术
3.3 结合深度学习的声学建模方法
3.3.1 深度学习基础
3.3.2 CD-DNN-HMM混合建模
3.3.3 深度学习在声学建模中的综合应用
3.3.4 深度学习训练加速
3.3.5 深度学习自适应技术
3.3.6 深度学习框架下的序列鉴别性训练
3.3.7 端到端声学建模
参考文献
4 特殊场景语音识别(抗噪、低资源)/谢磊张鹏远钱彦曼杜俊
4.1 鲁棒语音识别前端
4.1.1 噪声鲁棒性语音识别方法
4.1.2 鲁棒性特征
4.1.3 信号域增强
4.1.4 特征增强/补偿方法
4.2 环境表达与声学模型自适应
4.2.1 自适应与鲁棒性
4.2.2 基于保守训练的自适应
4.2.3 基于线性变换的自适应
4.2.4 基于环境感知的自适应
4.2.5 参数结构化自适应及自适应训练
4.3 多语种声学与语言建模
4.3.1 基于知识共享的多语言声学建模技术
4.3.2 小语种语言模型建模技术
参考文献
5 声纹识别与语种识别/王龙标 李明 郑 方 程星亮 李蓝天
5.1 声纹识别与语种识别简介
5.1.1 传统方法
5.1.2 深度学习方法
5.1.3 迁移学习、多任务学习及多数据库联合学习
5.2 声纹识别经典算法
5.2.1 特征提取
5.2.2 GMM—LJBM—MAP
5.2.3 i—vector
5.2.4 PLDA
5.3 鲁棒性声纹识别算法
5.3.1 复杂环境声纹识别
5.3.2 时变声纹识别
5.3.3 短语音声纹识别
5.3.4 防声纹假冒闯人对策
5.4 基于深度学习的声纹及语种识别算法
5.4.1 正义统计量
5.4.2 Tandem及Bottleneck特征
5.4.3 典型模型结构
5.5 评价指标、数据库及工具包
5.5.1 评价指标
5.5.2 数据库及工具包
参考文献
6 韵律、情绪及音乐分析/陶建华 李爱军 李伟
6.1 言语韵律
6.1.1 言语韵律基本概念与理论
6.1.2 韵律分析与建模
6.1.3 韵律标注系统
6.1.4 汉语韵律研究的挑战
6.2 情感语音
6.2.1 情感语音的声学特征
6.2.2 语音的情感分类与识别
6.2.3 情感语音合成
6.3 音乐内容分析理解
6.3.1 音乐和语音的关系
6.3.2 音乐旋律分析
6.3.3 音乐节奏分析
参考文献
7 统计语音合成/凌震华 陶建华
7.1 语音合成概述
7.2 基于隐马尔可夫模型的统计语音合成方法
7.2.1 隐马尔可夫模型
7.2.2 基于HMM的统计参数语音合成
7.2.3 基于HMM的统计参数语音合成关键技术
7.2.4 基于HMM的语音合成灵活性
7.2.5 基于HMM的统计参数语音合成方法的优缺点
7.3 结合深度学习的统计语音合成方法
7.3.1 深度学习关键技术
7.3.2 基于深度学习的声学建模方法
7.3.3 基于深度学习的频谱特征提取与频谱生成后滤波
7.3.4 基于神经网络的波形生成方法
7.4 基于神经网络的语音合成前端处理
7.4.1 基于深度学习的字音转换
7.4.2 基于深度学习的韵律边界预测
7.5 基于神经网络的语音合成端到端建模方法
参考文献
8 人机口语对话系统/俞凯陈 露
8.1 人机口语对话系统概述
8.1.1 人机口语对话系统发展历史及分类
8.1.2 任务型人机口语对话系统的基本架构
8.1.3 对话系统的评估
8.2 口语理解
8.2.1 口语理解基本概念
8.2.2 口语理解算法前沿
8.2.3 口语理解中的不确定性建模
8.2.4 上下文建模及领域自适应
8.2.5 研究展望
8.3 对话状态跟踪
8.3.1 基于部分可观测马尔可夫决策过程(POMDP)的对话管理框架概述
8.3.2 对话状态跟踪
8.3.3 对话状态跟踪挑战赛
8.3.4 基于统计的DsT模型
8.3.5 基于规则的DST模型
8.3.6 基于规则与统计相结合的DsT模型
8.3.7 端到端的DST模型
8.3.8 多领域DST模型
8.4 对话策略优化
8.4.1 强化学习及其在对话策略优化中的应用
8.4.2 深度强化学习在对话策略优化中的应用
8.4.3 对话策略优化的高级技术
8.4.4 用户模拟器
参考文献
9 面向健康医疗的语音技术/贾珈
9.1 言语感知的脑机制
9.1.1 言语感知机理
9.1.2 言语感知障碍的脑机制
9.2 助听技术与听障评估
9.2.1 人工电子耳的构成
9.2.2 人工电子耳语音信号编码方案
9.2.3 人工电子耳的当前技术挑战
9.2.4 听障评估技术
9.3 嗓音障碍产生机制与客观评估技术
9.3.1 嗓音障碍产生机制
9.3.2 嗓音障碍的声学客观评估方法
9.4 言语康复训练与学习
9.4.1 言语康复技术概述
9.4.2 可视化言语康复训练
参考文献
索引
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-
孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-
时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-
本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...