欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • PyTorch语音识别实战/人工智能技术丛书
      • 作者:王晓华|责编:夏毓彦
      • 出版社:清华大学
      • ISBN:9787302655657
      • 出版日期:2024/03/01
      • 页数:264
    • 售价:27.6
  • 内容大纲

        本书使用PyTorch 2.0作为语音识别的基本框架,循序渐进地引导读者从搭建环境开始,逐步深入到语音识别基本理论、算法以及应用实践,是较好的一本语音识別技术图书。本书配套示例源码、数据集、PPT课件等资源。
        本书分为13章,内容包括语音识别之路、PyTorch 2.0深度学习环境搭建、音频信号处理的理论与Python实战、音频处理常用工具包Librosa详解与实战、基于DNN的语音情绪分类识别、一学就会的深度学习基础算法、基于PyTorch卷积层的语音情绪分类识别、词映射与循环神经网络、基于Whisper的语音转换实战、注意力机制与注意力模型详解、鸟叫的多标签分类实战、多模态语音转换模型基础、GLM架构多模态语音文字转换实战。
        本书内容详尽、示例丰富,适合作为语音识别初学者、深度学习初学者、语音识别技术人员的必备参考书,同时也非常适合作为高等院校或高职高专深度学习、语音识别等课程的教材。
  • 作者介绍

        王晓华,计算机专业讲师。长期讲授面向对象程序设计、数据结构、Hadoop程序设计等研究生和本科生相关课程。主要研究方向为云计算、数据挖掘。曾主持和参与多项国家和省级科研课题,独立科研项目获省级成果认定,发表过多篇论文,拥有一项专利。著有《Spark MLlib机器学习实践》《TensorFlow深度学习应用实践》《OpenCV+TensorFlow深度学习与计算机视觉实战》《TensorFlow 2.0深度学习从零开始学》等图书。
  • 目录

    第1章  语音识别之路
      1.1  何谓语音识别
      1.2  语音识别为什么那么难
      1.3  语音识别之路语音识别的发展历程
        1.3.1  高斯混合-隐马尔科夫时代
        1.3.2  深度神经网络-隐马尔科夫时代
        1.3.3  基于深度学习的端到端语音识别时代
        1.3.4  多模态架构的语音识别与转换
      1.4  基于深度学习的语音识别的未来
      1.5  本章小结
    第2章  PyTorch 2.0深度学习环境搭建
      2.1  环境搭建1:安装Python
        2.1.1  Miniconda的下载与安装
        2.1.2  PyCharm的下载与安装
        2.1.3  Python代码小练习:计算softmax函数
      2.2  环境搭建2:安装PyTorch 2.0
        2.2.1  Nvidia 10/20/30/40系列显卡选择的GPU版本
        2.2.2  PyTorch 2.0 GPU Nvidia运行库的安装
        2.2.3  PyTorch 2.0小练习:Hello PyTorch
      2.3  实战:基于特征词的语音唤醒
        2.3.1  数据的准备
        2.3.2  数据的处理
        2.3.3  模型的设计
        2.3.4  模型的数据输入方法
        2.3.5  模型的训练
        2.3.6  模型的结果和展示
      2.4  本章小结
    第3章  音频信号处理的理论与Python实战
      3.1  音频信号的基本理论详解
        3.1.1  音频信号的基本理论
        3.1.2  音频信号的时域与频域
      3.2  傅里叶变换详解
        3.2.1  傅里叶级数
        3.2.2  连续到离散的计算
        3.2.3  Python中的傅里叶变换实战
      3.3  快速傅里叶变换与短时傅里叶变换
        3.3.1  快速傅里叶变换Python实战
        3.3.2  短时傅里叶变换Python实战
      3.4  梅尔频率倒谱系数Python实战
        3.4.1  梅尔频率倒谱系数的计算过程
        3.4.2  梅尔频率倒谱系数的Python实现
      3.5  本章小结
    第4章  音频处理工具包Librosa详解与实战
      4.1  音频特征提取Librosa包基础使用
        4.1.1  基于Librosa的音频信号读取
        4.1.2  基于Librosa的音频多种特征提取
        4.1.3  其他基于Librosa的音频特征提取工具
      ……
    第5章  基于深度神经网络的语音情绪分类识别
    第6章  一学就会的深度学习基础算法

    第7章  基于PyTorch卷积层的语音情绪分类识别
    第8章  词映射与循环神经网络
    第9章  基于Whisper的语音转换实战
    第10章  注意力机制
    第11章  鸟叫的多标签分类实战
    第12章  多模态语音转换模型基础
    第13章  GLM架构多模态语音文字转换实战