-
内容大纲
本书系统地介绍了语音识别的原理与应用。全书共16章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型、加权有限状态转换器(WFST)和语音大模型,重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工业应用实践介绍,内容主要来自工程经验,极具实用性。
本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生的教材,也适合作为从事智能语音系统的科研人员和工程技术人员的参考书。 -
作者介绍
-
目录
第1章 语音识别概论
1.1 语音的产生和感知
1.2 语音识别过程
1.3 语音识别发展历史
1.4 国内语音识别现状
1.5 语音识别建模方法
1.5.1 DTW
1.5.2 GMM-HMM
1.5.3 DNN-HMM
1.5.4 E2E模型
1.6 语音识别开源工具
1.7 常用语音识别数据库
1.8 语音识别评价指标
参考文献
第2章 语音信号基础
2.1 声波的特性
2.2 声音的接收装置
2.2.1 麦克风的性能指标
2.2.2 麦克风阵列
2.3 声音的采样
2.4 声音的量化
2.5 语音的编码
2.6 WAV文件格式
2.7 WAV文件分析
2.8 本章小结
思考练习题
第3章 语音特征提取
3.1 预处理
3.2 短时傅里叶变换
3.3 听觉特性
3.4 线性预测
3.5 倒谱分析
3.6 常用的声学特征
3.6.1 语谱图
3.6.2 FBank
3.6.3 MFCC
3.6.4 PLP
3.7 本章小结
思考练习题
第4章 HMM
4.1 HMM的基本概念
4.1.1 马尔可夫链
4.1.2 双重随机过程
4.1.3 HMM的定义
4.2 HMM的三个基本问题
4.2.1 模型评估问题
4.2.2 最佳路径问题
4.2.3 模型训练问题
4.3 本章小结
参考文献
思考练习题
第5章 GMM-HMM
5.1 概率统计
5.2 高斯分布
5.3 GMM
5.3.1 初始化
5.3.2 重估计
5.4 GMM与HMM的结合
5.5 GMM-HMM的训练
5.6 模型自适应
5.6.1 MAP
5.6.2 MLLR
5.6.3 fMLLR
5.6.4 SAT
5.7 本章小结
参考文献
思考练习题
第6章 基于HMM的语音识别
6.1 建模单元
6.2 发音过程与HMM状态
6.3 串接HMM
6.4 固定语法的识别
6.5 随机语法的识别
6.6 音素的上下文建模
6.6.1 协同发音
6.6.2 上下文建模
6.6.3 决策树
6.6.4 问题集
6.6.5 三音子模型的训练
6.7 本章小结
思考练习题
第7章 DNN-HMM
7.1 深度学习
7.2 DNN
7.2.1 激活函数
7.2.2 损失函数
7.2.3 梯度下降算法
7.3 DNN与HMM的结合
7.4 不同的DNN结构
7.4.1 CNN
7.4.2 LSTM
7.4.3 GRU
7.4.4 TDNN
7.4.5 TDNN
7.5 本章小结
参考文献
思考练习题
第8章 语言模型
8.1 n-gram模型
8.2 评价指标——困惑度
8.3 平滑技术
8.3.1 Good-Turing折扣法
8.3.2 Witten-Bell折扣法
8.3.3 Katz 回退法
8.3.4 Jelinek-Mercer插值法
8.3.5 Kneser-Ney插值法
8.4 语言模型的训练
8.5 神经网络语言模型
8.6 本章小结
参考文献
思考练习题
第9章 WFST解码器
9.1 基于动态网络的Viterbi解码
9.2 WFST理论
9.3 HCLG构建
9.3.1 H的构建
9.3.2 C的构建
9.3.3 L的构建
9.3.4 G的构建
9.3.5 HCLG合并
9.4 WFST的Viterbi解码
9.4.1 Token的定义
9.4.2 Viterbi算法
9.5 Lattice 解码
9.5.1 主要数据结构
9.5.2 令牌传播过程
9.5.3 剪枝策略
9.5.4 Lattice
9.6 本章小结
参考文献
思考练习题
第10章 Kaldi训练实例
10.1 下载与安装Kaldi
10.1.1 获取源代码
10.1.2 编译
10.2 创建和配置基本的工程目录
10.3 aishell语音识别工程
10.3.1 数据集映射目录准备
10.3.2 词典准备和lang目录生成
10.3.3 语言模型训练
10.3.4 声学特征提取与倒谱均值归一化
10.3.5 声学模型训练与强制对齐
10.3.6 解码测试与指标计算
10.4 本章小结
第11章 端到端语音识别
11.1 CTC
11.1.1 损失函数
11.1.2 前向算法
11.1.3 后向算法
11.1.4 求导过程
11.1.5 CTC 解码
11.2 RNN
11.3 基于Attention 的Encoder-Decoder模型
11.4 Hybrid CTC/Attention
11.5 本章小结
参考文献
思考练习题
第12章 Transformer结构
12.1 模型结构
12.2 卷积下采样
12.3 位置编码
12.4 自注意力机制
12.4.1 自注意力
12.4.2 多头注意力机制
12.5 编码器结构
12.5.1 残差连接
12.5.2 层归一化
12.5.3 前馈层
12.6 解码器结构
12.6.1 交叉注意力
12.6.2 掩蔽注意力
12.7 训练和推理
12.8 Whisper 实例
12.9 本章小结
参考文献
思考练习题
第13章 Conformer流识别
13.1 Conformer结构
13.2 卷积下采样
13.3 编码器结构
13.3.1 前馈模块
13.3.2 多头自注意力模块
13.3.3 卷积模块
13.4 相对位置编码
13.5 流识别机制
13.6 本章小结
参考文献
思考练习题
第14章 语音大模型
14.1 LLM
14.2 音频离散化
14.3 语音文本对齐
14.4 流式打断
14.5 对话大模型
14.6 本章小结
参考文献
第15章 WeNet实践
15.1 数据准备
15.1.1 映射文件准备
15.1.2 CMVN 计算
15.1.3 词典生成
15.1.4 数据打包
15.2 WeNet 配置文件
15.3 声学模型训练
15.3.1 声学模型训练脚本
15.3.2 Transformer模型训练
15.3.3 Conformer模型训练
15.3.4 Unified Conformer模型训练
15.3.5 U2++ Conformer模型训练
15.4 Python环境解码
15.5 WeNet模型部署
15.5.1 模型导出
15.5.2 语言模型训练
15.5.3 结合语言模型的解码
15.6 WeNet解码结果可视化
15.7 本章小结
参考文献
第16 章 工业应用实践
16.1 应用场景
16.2 引擎优化
16.2.1 Kaldi方案
16.2.2 WeNet方案
16.2.3 Whisper 微调
16.3 工程部署
16.3.1 SDK 封装
16.3.2 语音云平台
16.3.3 Kaldi嵌入式移植
16.3.4 WeNet端侧部署
16.3.5 Paraformer与FunASR部署
16.3.6 sherpa-onnx部署
16.4 Zipformer 实践
16.4.1 Zipformer
16.4.2 Transducer流识别
16.4.3 icefall训练
16.5 本章小结
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
