欢迎光临澳大利亚新华书店网 [登录 | 免费注册]

    • 语音与音乐信号处理轻松入门(基于Python与PyTorch)/跟我一起学人工智能
      • 作者:姚利民|责编:赵佳霓
      • 出版社:清华大学
      • ISBN:9787302679110
      • 出版日期:2025/03/01
      • 页数:226
    • 售价:27.6
  • 内容大纲

        近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。
        本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。
        本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。
  • 作者介绍

        姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于A0及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前主要从事A0研究,专攻棋类博弈和计算机视觉。有感于相关资源的匮乏,主讲基于Java的OpenCV课程,短期内获大量关注。
  • 目录

    本书源码
    第1章  基础知识
      1.1  声学基础
        1.1.1  声音的产生和传播
        1.1.2  声波的描述
        1.1.3  声音的客观衡量
        1.1.4  声音的主观属性
      1.2  音频文件格式
        1.2.1  WAV文件格式
        1.2.2  MP3文件格式
        1.2.3  MIDI文件格式
        1.2.4  其他文件格式
      1.3  Praat简介
        1.3.1  Praat概要
        1.3.2  Praat的下载和安装
        1.3.3  Praat的主要功能
        1.3.4  Praat基础操作
    第2章  Python基础
      2.1  Python简介
      2.2  Anaconda的安装
      2.3  主要Python库
      2.4  Python绘图基础
        2.4.1  散点图的绘制
        2.4.2  线性图的绘制
        2.4.3  图形的美化
        2.4.4  子图的绘制
      2.5  FFmpeg的安装与配置
    第3章  音频信号的获取
      3.1  采样与量化
        3.1.1  采样相关概念
        3.1.2  从话筒拾取信号
      3.2  读取音频文件
      3.3  从视频文件提取
      3.4  声音的合成
        3.4.1  纯音的生成
        3.4.2  复合音的生成
        3.4.3  音效的合成
    第4章  音频信号分析初步
      4.1  分帧
      4.2  加窗
      4.3  信号的时域分析
        4.3.1  短时平均过零率
        4.3.2  短时平均能量
        4.3.3  短时自相关函数
      4.4  信号的频域分析
        4.4.1  频谱图
        4.4.2  傅里叶变换
        4.4.3  傅里叶变换的应用
      4.5  信号的时频域分析
        4.5.1  短时傅里叶变换

        4.5.2  语谱图
        4.5.3  宽带语谱图和窄带语谱图
        4.5.4  Praat中查看语谱图
      4.6  小波变换
        4.6.1  概述
        4.6.2  连续小波变换
        4.6.3  离散小波变换
        4.6.4  小波变换的应用
    第5章  语音识别基础
      5.1  语音的产生和感知
        5.1.1  语音信号的产生
        5.1.2  语音信号的感知
        5.1.3  语音信号的数字模型
      5.2  汉语的语音特征
        5.2.1  元音和辅音
        5.2.2  声母和韵母
        5.2.3  音素
        5.2.4  音调
      5.3  元音与共振峰
      5.4  语音端点检测
        5.4.1  音量法
        5.4.2  平均能量法
        5.4.3  双门限法
      5.5  基音估计
      5.6  梅尔倒谱系数
        5.6.1  MFCC特征提取步骤
        5.6.2  MFCC特征
        5.6.3  Fbank特征
    第6章  传统语音识别技术
      6.1  语音识别概述
      6.2  动态时间规整
      6.3  高斯混合模型
        6.3.1  高斯分布
        6.3.2  高斯混合模型
        6.3.3  GMMUBM
      6.4  隐马尔可夫模型
        6.4.1  马尔可夫链
        6.4.2  隐马尔可夫模型
        6.4.3  Viterbi算法
    第7章  语音识别实战
      7.1  Whisper的安装
      7.2  Whisper的使用
    第8章  语音合成
      8.1  文本转语音
        8.1.1  使用SAPI
        8.1.2  使用Pyttsx
        8.1.3  使用SpeechLib
      8.2  语音合成
        8.2.1  World声码器
        8.2.2  World声码器优点

        8.2.3  World的主要模块
        8.2.4  语音合成实战
    第9章  音乐分析
      9.1  常用音乐术语
      9.2  音乐分析常用指标
        9.2.1  频带能量比
        9.2.2  频谱特征
        9.2.3  恒Q变换
      9.3  声音的包络
      9.4  节拍检测
      9.5  音高识别
      9.6  调性分析
    第10章  MIDI文件编程
      10.1  MIDI文件格式剖析
        10.1.1  HC和TC
        10.1.2  时间差
        10.1.3  事件
      10.2  用Mido操作MIDI
      10.3  用Music21编曲
        10.3.1  Music21简介
        10.3.2  Music21的安装及配置
        10.3.3  Music21的层级结构
    第11章  深度学习基础
      11.1  神经网络基础
        11.1.1  神经元
        11.1.2  激活函数
        11.1.3  前馈神经网络
        11.1.4  梯度下降法
      11.2  PyTorch基础
        11.2.1  PyTorch简介
        11.2.2  PyTorch的主要模块
        11.2.3  PyTorch的安装
        11.2.4  张量
        11.2.5  计算图
        11.2.6  自动求导机制
        11.2.7  损失函数
        11.2.8  优化器
      11.3  案例:声音的分类
        11.3.1  数据集介绍
        11.3.2  预处理
        11.3.3  数据载入类
        11.3.4  构建网络
        11.3.5  训练模型
        11.3.6  预测与验证
    第12章  常用神经网络
      12.1  卷积神经网络
        12.1.1  卷积运算
        12.1.2  池化
        12.1.3  卷积神经网络的结构
      12.2  循环神经网络

        12.2.1  RNN
        12.2.2  LSTM
        12.2.3  GRU
      12.3  案例:音乐风格分类
        12.3.1  数据集介绍
        12.3.2  特征提取
        12.3.3  模型及训练
    第13章  深度学习与语音识别
      13.1  Word2Vec
        13.1.1  词向量
        13.1.2  Word2Vec
        13.1.3  Hierarchical Softmax
        13.1.4  负采样
      13.2  ELMo
      13.3  Transformer
        13.3.1  Transformer的构成
        13.3.2  位置编码
        13.3.3  注意力机制
        13.3.4  多头注意力
        13.3.5  残差连接和层归一化
        13.3.6  Transformer整体架构