欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 语音识别(原理与应用第3版)/通用智能与大模型丛书
      • 作者:洪青阳//李琳|责编:郑柳洁
      • 出版社:电子工业
      • ISBN:9787121499326
      • 出版日期:2025/04/01
      • 页数:284
    • 售价:47.6
  • 内容大纲

        本书系统地介绍了语音识别的原理与应用。全书共16章,原理部分涵盖声学特征、隐马尔可夫模型(HMM)、高斯混合模型(GMM)、深度神经网络(DNN)、语言模型、加权有限状态转换器(WFST)和语音大模型,重点描述了GMM-HMM、DNN-HMM和端到端(E2E)三种语音识别框架;应用部分包含Kaldi、WeNet、FunASR和sherpa-onnx等工业应用实践介绍,内容主要来自工程经验,极具实用性。
        本书可以作为普通高等学校人工智能、计算机科学与技术、电子信息工程、自动化等专业的本科生及研究生的教材,也适合作为从事智能语音系统的科研人员和工程技术人员的参考书。
  • 作者介绍

  • 目录

    第1章  语音识别概论
      1.1  语音的产生和感知
      1.2  语音识别过程
      1.3  语音识别发展历史
      1.4  国内语音识别现状
      1.5  语音识别建模方法
        1.5.1  DTW
        1.5.2  GMM-HMM
        1.5.3  DNN-HMM
        1.5.4  E2E模型
      1.6  语音识别开源工具
      1.7  常用语音识别数据库
      1.8  语音识别评价指标
    参考文献
    第2章  语音信号基础
      2.1  声波的特性
      2.2  声音的接收装置
        2.2.1  麦克风的性能指标
        2.2.2  麦克风阵列
      2.3  声音的采样
      2.4  声音的量化
      2.5  语音的编码
      2.6  WAV文件格式
      2.7  WAV文件分析
      2.8  本章小结
    思考练习题
    第3章  语音特征提取
      3.1  预处理
      3.2  短时傅里叶变换
      3.3  听觉特性
      3.4  线性预测
      3.5  倒谱分析
      3.6  常用的声学特征
        3.6.1  语谱图
        3.6.2  FBank
        3.6.3  MFCC
        3.6.4  PLP
      3.7  本章小结
    思考练习题
    第4章  HMM
      4.1  HMM的基本概念
        4.1.1  马尔可夫链
        4.1.2  双重随机过程
        4.1.3  HMM的定义
      4.2  HMM的三个基本问题
        4.2.1  模型评估问题
        4.2.2  最佳路径问题
        4.2.3  模型训练问题
      4.3  本章小结
    参考文献

    思考练习题
    第5章  GMM-HMM
      5.1  概率统计
      5.2  高斯分布
      5.3  GMM
        5.3.1  初始化
        5.3.2  重估计
      5.4  GMM与HMM的结合
      5.5  GMM-HMM的训练
      5.6  模型自适应
        5.6.1  MAP
        5.6.2  MLLR
        5.6.3  fMLLR
        5.6.4  SAT
      5.7  本章小结
    参考文献
    思考练习题
    第6章  基于HMM的语音识别
      6.1  建模单元
      6.2  发音过程与HMM状态
      6.3  串接HMM
      6.4  固定语法的识别
      6.5  随机语法的识别
      6.6  音素的上下文建模
        6.6.1  协同发音
        6.6.2  上下文建模
        6.6.3  决策树
        6.6.4  问题集
        6.6.5  三音子模型的训练
      6.7  本章小结
    思考练习题
    第7章  DNN-HMM
      7.1  深度学习
      7.2  DNN
        7.2.1  激活函数
        7.2.2  损失函数
        7.2.3  梯度下降算法
      7.3  DNN与HMM的结合
      7.4  不同的DNN结构
        7.4.1  CNN
        7.4.2  LSTM
        7.4.3  GRU
        7.4.4  TDNN
        7.4.5  TDNN
      7.5  本章小结
    参考文献
    思考练习题
    第8章  语言模型
      8.1  n-gram模型
      8.2  评价指标——困惑度

      8.3  平滑技术
        8.3.1  Good-Turing折扣法
        8.3.2  Witten-Bell折扣法
        8.3.3  Katz 回退法
        8.3.4  Jelinek-Mercer插值法
        8.3.5  Kneser-Ney插值法
      8.4  语言模型的训练
      8.5  神经网络语言模型
      8.6  本章小结
    参考文献
    思考练习题
    第9章  WFST解码器
      9.1  基于动态网络的Viterbi解码
      9.2  WFST理论
      9.3  HCLG构建
        9.3.1  H的构建
        9.3.2  C的构建
        9.3.3  L的构建
        9.3.4  G的构建
        9.3.5  HCLG合并
      9.4  WFST的Viterbi解码
        9.4.1  Token的定义
        9.4.2  Viterbi算法
      9.5  Lattice 解码
        9.5.1  主要数据结构
        9.5.2  令牌传播过程
        9.5.3  剪枝策略
        9.5.4  Lattice
      9.6  本章小结
    参考文献
    思考练习题
    第10章  Kaldi训练实例
      10.1  下载与安装Kaldi
        10.1.1  获取源代码
        10.1.2  编译
      10.2  创建和配置基本的工程目录
      10.3  aishell语音识别工程
        10.3.1  数据集映射目录准备
        10.3.2  词典准备和lang目录生成
        10.3.3  语言模型训练
        10.3.4  声学特征提取与倒谱均值归一化
        10.3.5  声学模型训练与强制对齐
        10.3.6  解码测试与指标计算
      10.4  本章小结
    第11章  端到端语音识别
      11.1  CTC
        11.1.1  损失函数
        11.1.2  前向算法
        11.1.3  后向算法
        11.1.4  求导过程

        11.1.5  CTC 解码
      11.2  RNN
      11.3  基于Attention 的Encoder-Decoder模型
      11.4  Hybrid CTC/Attention
      11.5  本章小结
    参考文献
    思考练习题
    第12章  Transformer结构
      12.1  模型结构
      12.2  卷积下采样
      12.3  位置编码
      12.4  自注意力机制
        12.4.1  自注意力
        12.4.2  多头注意力机制
      12.5  编码器结构
        12.5.1  残差连接
        12.5.2  层归一化
        12.5.3  前馈层
      12.6  解码器结构
        12.6.1  交叉注意力
        12.6.2  掩蔽注意力
      12.7  训练和推理
      12.8  Whisper 实例
      12.9  本章小结
    参考文献
    思考练习题
    第13章  Conformer流识别
      13.1  Conformer结构
      13.2  卷积下采样
      13.3  编码器结构
        13.3.1  前馈模块
        13.3.2  多头自注意力模块
        13.3.3  卷积模块
      13.4  相对位置编码
      13.5  流识别机制
      13.6  本章小结
    参考文献
    思考练习题
    第14章  语音大模型
      14.1  LLM
      14.2  音频离散化
      14.3  语音文本对齐
      14.4  流式打断
      14.5  对话大模型
      14.6  本章小结
    参考文献
    第15章  WeNet实践
      15.1  数据准备
        15.1.1  映射文件准备
        15.1.2  CMVN 计算

        15.1.3  词典生成
        15.1.4  数据打包
      15.2  WeNet 配置文件
      15.3  声学模型训练
        15.3.1  声学模型训练脚本
        15.3.2  Transformer模型训练
        15.3.3  Conformer模型训练
        15.3.4  Unified Conformer模型训练
        15.3.5  U2++ Conformer模型训练
      15.4  Python环境解码
      15.5  WeNet模型部署
        15.5.1  模型导出
        15.5.2  语言模型训练
        15.5.3  结合语言模型的解码
      15.6  WeNet解码结果可视化
      15.7  本章小结
    参考文献
    第16 章  工业应用实践
      16.1  应用场景
      16.2  引擎优化
        16.2.1  Kaldi方案
        16.2.2  WeNet方案
        16.2.3  Whisper 微调
      16.3  工程部署
        16.3.1  SDK 封装
        16.3.2  语音云平台
        16.3.3  Kaldi嵌入式移植
        16.3.4  WeNet端侧部署
        16.3.5  Paraformer与FunASR部署
        16.3.6  sherpa-onnx部署
      16.4  Zipformer 实践
        16.4.1  Zipformer
        16.4.2  Transducer流识别
        16.4.3  icefall训练
      16.5  本章小结

</