欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 数字语音信息处理(新一代信息技术人工智能战略性新兴领域十四五高等教育系列教材)
      • 作者:编者:贾懋珅|责编:吉玲//王华庆
      • 出版社:机械工业
      • ISBN:9787111776710
      • 出版日期:2024/12/01
      • 页数:232
    • 售价:23.6
  • 内容大纲

        本书为数字语音信息处理课程教材,结合信号处理、声学、计算机科学、统计学等多个学科,系统介绍了数字语音信息处理的基础知识、基本原理、重要方法以及该学科领域近年来取得的一些重大研究成果与技术突破。本书遵循了科学性、实用性、创新性原则。全书共10章,内容包括:绪论、语音产生与听觉感知、语音信号特征、常用建模算法、语音编码和质量评估、语音识别、说话人识别、语音合成、语音增强、语音分离。另外,在本书的每章末尾都加入了思考题与习题,供读者思考、练习。
        本书以帮助读者快速、直观地理解概念为目标,展示了基本的数学公式,同时注重理论与实践相结合,在每节都详细地阐述了相关知识和具体方法,以便读者进一步融会贯通。
        本书可作为高等院校计算机科学与技术、通信工程、电子信息、人工智能等相关专业及学科的高年级本科生、研究生教材,也可供相关领域的科研及工程技术人员参考。
  • 作者介绍

  • 目录

    第1章  绪论
      1.1  语音信号处理介绍
      1.2  语音信号处理应用
      思考题与习题
      参考文献
    第2章  语音产生与听觉感知
      2.1  语音产生
        2.1.1  发音器官
        2.1.2  发音原理
      2.2  心理声学原理
        2.2.1  听觉范围
        2.2.2  绝对听阈
        2.2.3  临界频带
        2.2.4  同时掩蔽
        2.2.5  异时掩蔽
      本章小结
      思考题与习题
      参考文献
    第3章  语音信号特征
      3.1  时域特征
        3.1.1  短时平均过零率
        3.1.2  短时平均幅度
        3.1.3  短时平均能量
        3.1.4  短时自相关函数
      3.2  频域特征
        3.2.1  语谱图特征
        3.2.2  滤波器组特征
      3.3  倒谱域特征
        3.3.1  同态信号处理
        3.3.2  倒谱特征
        3.3.3  复倒谱特征
        3.3.4  Mel频率倒谱特征
        3.3.5  动态倒谱特征
      3.4  线性预测特征
        3.4.1  LPC基本原理
        3.4.2  LPC的求解
        3.4.3  LPC谱估计
        3.4.4  LPC复倒谱
        3.4.5  感知线性预测
        3.4.6  LPC的推演参数
      本章小结
      思考题与习题
      参考文献
    第4章  常用建模算法
      4.1  矢量量化
        4.1.1  VQ基本原理
        4.1.2  VQ的失真测度
        4.1.3  VQ模型学习方法
        4.1.4  VQ模型的改进
      4.2  高斯混合模型

        4.2.1  高斯混合模型的基本原理
        4.2.2  期望最大化算法
      4.3  隐马尔可夫模型
        4.3.1  HMM的基本概念
        4.3.2  HMM的三个基本问题
        4.3.3  HMM的结构类型
        4.3.4  GMM-HMM算法
        4.3.5  HMM的自适应算法
      4.4  支持向量机
        4.4.1  SVM的基本原理
        4.4.2  对偶优化
        4.4.3  非线性SVM
        4.4.4  支持向量回归
      4.5  神经网络
        4.5.1  NN的基本概念
        4.5.2  多层感知器
        4.5.3  误差反向传播算法
        4.5.4  NN的过拟合问题
      4.6  深度神经网络
        4.6.1  浅层网络到深层网络
        4.6.2  DNN的训练
        4.6.3  常用的DNN模型
        4.6.4  Transformer的基本概念
        4.6.5  BERT模型和GPT模型
      本章小结
      思考题与习题
      参考文献
    第5章  语音编码和质量评估
      5.1  量化和熵编码
        5.1.1  概率密度函数
        5.1.2  标量量化
        5.1.3  矢量量化
        5.1.4  比特分配算法
        5.1.5  熵编码
      5.2  波形编码
        5.2.1  脉冲编码调制
        5.2.2  差分脉冲编码调制
        5.2.3  自适应差分脉冲编码调制
      5.3  参数编码
        5.3.1  线性预测编码
        5.3.2  正弦变换编码
      5.4  混合编码
      5.5  变速率编码
      5.6  神经网络语音编码
      5.7  编码器主要属性
        5.7.1  带宽
        5.7.2  编码速率
      5.8  质量评估
        5.8.1  主观评价
        5.8.2  客观评价

      本章小结
      思考题与习题
      参考文献
    第6章  语音识别
      6.1  模版匹配方法
        6.1.1  矢量量化技术
        6.1.2  动态时间规整技术
      6.2  统计概率模型方法
        6.2.1  基于GMM-HMM的语音识别方法
        6.2.2  基于DNN-HMM的语音识别方法
      6.3  端到端语音识别方法
        6.3.1  连接时序分类模型
        6.3.2  递归神经网络转换器模型
        6.3.3  LAS模型
        6.3.4  联合CTC-注意力模型
      本章小结
      思考题与习题
      参考文献
    第7章  说话人识别
      7.1  基于高斯混合模型的说话人识别
        7.1.1  GMM说话人识别
        7.1.2  GMM-UBM说话人识别
        7.1.3  GMM-SVM说话人识别
      7.2  基于i-vector的说话人识别
        7.2.1  基于GMM的i-vector说话人识别
        7.2.2  基于DNN的i-vector说话人识别
        7.2.3  说话人相似度打分
      7.3  基于深度神经网络的说话人识别
        7.3.1  x-vector说话人识别
        7.3.2  ResNet说话人识别
        7.3.3  ECAPA-TDNN说话人识别
        7.3.4  基于预训练大模型的说话人识别
      7.4  说话人日志技术
        7.4.1  基于分割聚类的说话人日志
        7.4.2  基于端到端的说话人日志技术
        7.4.3  难点和发展方向
      本章小结
      思考题与习题
      参考文献
    第8章  语音合成
      8.1  参数合成法
      8.2  波形拼接合成法
      8.3  基于隐马尔可夫的语音合成
        8.3.1  模型训练阶段
        8.3.2  语音合成阶段
        8.3.3  HMM语音合成的关键
      8.4  基于深度学习的语音合成
        8.4.1  Tacotron
        8.4.2  FastSpeech
        8.4.3  WaveNet

        8.4.4  VITS
        8.4.5  GPT-SoVITS
      本章小结
      思考题与习题
      参考文献
    第9章  语音增强
      9.1  研究背景
      9.2  信号模型与评价指标
        9.2.1  信号模型
        9.2.2  语音质量评价标准
      9.3  单通道方法
        9.3.1  谱减法
        9.3.2  维纳滤波
        9.3.3  深度学习方法
      9.4  多通道方法
        9.4.1  信号模型与特征提取
        9.4.2  基于数字信号处理的波束形成方法
        9.4.3  基于神经网络时频掩蔽的波束形成方法
        9.4.4  基于神经网络的多通道语音增强方法
      9.5  混响环境下的语音信号增强方法
        9.5.1  信号模型
        9.5.2  WPE去混响方法
      本章小结
      思考题与习题
      参考文献
    第10章  语音分离
      10.1  研究背景
      10.2  独立成分分析
        10.2.1  定义
        10.2.2  ICA目标函数
        10.2.3  优化算法
      10.3  非负矩阵分解
        10.3.1  基于NMF的语音分离
        10.3.2  NMF算法
        10.3.3  加稀疏约束的NMF算法
        10.3.4  加权NMF算法
      10.4  稀疏分量分析
        10.4.1  稀疏分量分析基本理论
        10.4.2  信号稀疏化处理
        10.4.3  混合矩阵估计
        10.4.4  源信号重构
      10.5  机器学习方法
        10.5.1  深度聚类算法
        10.5.2  置换不变性训练算法
        10.5.3  时域端到端语音分离法
      本章小结
      思考题与习题
      参考文献