-
内容大纲
近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。
本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。
本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。 -
作者介绍
姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于A0及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前主要从事A0研究,专攻棋类博弈和计算机视觉。有感于相关资源的匮乏,主讲基于Java的OpenCV课程,短期内获大量关注。 -
目录
本书源码
第1章 基础知识
1.1 声学基础
1.1.1 声音的产生和传播
1.1.2 声波的描述
1.1.3 声音的客观衡量
1.1.4 声音的主观属性
1.2 音频文件格式
1.2.1 WAV文件格式
1.2.2 MP3文件格式
1.2.3 MIDI文件格式
1.2.4 其他文件格式
1.3 Praat简介
1.3.1 Praat概要
1.3.2 Praat的下载和安装
1.3.3 Praat的主要功能
1.3.4 Praat基础操作
第2章 Python基础
2.1 Python简介
2.2 Anaconda的安装
2.3 主要Python库
2.4 Python绘图基础
2.4.1 散点图的绘制
2.4.2 线性图的绘制
2.4.3 图形的美化
2.4.4 子图的绘制
2.5 FFmpeg的安装与配置
第3章 音频信号的获取
3.1 采样与量化
3.1.1 采样相关概念
3.1.2 从话筒拾取信号
3.2 读取音频文件
3.3 从视频文件提取
3.4 声音的合成
3.4.1 纯音的生成
3.4.2 复合音的生成
3.4.3 音效的合成
第4章 音频信号分析初步
4.1 分帧
4.2 加窗
4.3 信号的时域分析
4.3.1 短时平均过零率
4.3.2 短时平均能量
4.3.3 短时自相关函数
4.4 信号的频域分析
4.4.1 频谱图
4.4.2 傅里叶变换
4.4.3 傅里叶变换的应用
4.5 信号的时频域分析
4.5.1 短时傅里叶变换
4.5.2 语谱图
4.5.3 宽带语谱图和窄带语谱图
4.5.4 Praat中查看语谱图
4.6 小波变换
4.6.1 概述
4.6.2 连续小波变换
4.6.3 离散小波变换
4.6.4 小波变换的应用
第5章 语音识别基础
5.1 语音的产生和感知
5.1.1 语音信号的产生
5.1.2 语音信号的感知
5.1.3 语音信号的数字模型
5.2 汉语的语音特征
5.2.1 元音和辅音
5.2.2 声母和韵母
5.2.3 音素
5.2.4 音调
5.3 元音与共振峰
5.4 语音端点检测
5.4.1 音量法
5.4.2 平均能量法
5.4.3 双门限法
5.5 基音估计
5.6 梅尔倒谱系数
5.6.1 MFCC特征提取步骤
5.6.2 MFCC特征
5.6.3 Fbank特征
第6章 传统语音识别技术
6.1 语音识别概述
6.2 动态时间规整
6.3 高斯混合模型
6.3.1 高斯分布
6.3.2 高斯混合模型
6.3.3 GMMUBM
6.4 隐马尔可夫模型
6.4.1 马尔可夫链
6.4.2 隐马尔可夫模型
6.4.3 Viterbi算法
第7章 语音识别实战
7.1 Whisper的安装
7.2 Whisper的使用
第8章 语音合成
8.1 文本转语音
8.1.1 使用SAPI
8.1.2 使用Pyttsx
8.1.3 使用SpeechLib
8.2 语音合成
8.2.1 World声码器
8.2.2 World声码器优点
8.2.3 World的主要模块
8.2.4 语音合成实战
第9章 音乐分析
9.1 常用音乐术语
9.2 音乐分析常用指标
9.2.1 频带能量比
9.2.2 频谱特征
9.2.3 恒Q变换
9.3 声音的包络
9.4 节拍检测
9.5 音高识别
9.6 调性分析
第10章 MIDI文件编程
10.1 MIDI文件格式剖析
10.1.1 HC和TC
10.1.2 时间差
10.1.3 事件
10.2 用Mido操作MIDI
10.3 用Music21编曲
10.3.1 Music21简介
10.3.2 Music21的安装及配置
10.3.3 Music21的层级结构
第11章 深度学习基础
11.1 神经网络基础
11.1.1 神经元
11.1.2 激活函数
11.1.3 前馈神经网络
11.1.4 梯度下降法
11.2 PyTorch基础
11.2.1 PyTorch简介
11.2.2 PyTorch的主要模块
11.2.3 PyTorch的安装
11.2.4 张量
11.2.5 计算图
11.2.6 自动求导机制
11.2.7 损失函数
11.2.8 优化器
11.3 案例:声音的分类
11.3.1 数据集介绍
11.3.2 预处理
11.3.3 数据载入类
11.3.4 构建网络
11.3.5 训练模型
11.3.6 预测与验证
第12章 常用神经网络
12.1 卷积神经网络
12.1.1 卷积运算
12.1.2 池化
12.1.3 卷积神经网络的结构
12.2 循环神经网络
12.2.1 RNN
12.2.2 LSTM
12.2.3 GRU
12.3 案例:音乐风格分类
12.3.1 数据集介绍
12.3.2 特征提取
12.3.3 模型及训练
第13章 深度学习与语音识别
13.1 Word2Vec
13.1.1 词向量
13.1.2 Word2Vec
13.1.3 Hierarchical Softmax
13.1.4 负采样
13.2 ELMo
13.3 Transformer
13.3.1 Transformer的构成
13.3.2 位置编码
13.3.3 注意力机制
13.3.4 多头注意力
13.3.5 残差连接和层归一化
13.3.6 Transformer整体架构
同类热销排行榜
- C语言与程序设计教程(高等学校计算机类十二五规划教材)16
- 电机与拖动基础(教育部高等学校自动化专业教学指导分委员会规划工程应用型自动化专业系列教材)13.48
- 传感器与检测技术(第2版高职高专电子信息类系列教材)13.6
- ASP.NET项目开发实战(高职高专计算机项目任务驱动模式教材)15.2
- Access数据库实用教程(第2版十二五职业教育国家规划教材)14.72
- 信号与系统(第3版下普通高等教育九五国家级重点教材)15.08
- 电气控制与PLC(普通高等教育十二五电气信息类规划教材)17.2
- 数字电子技术基础(第2版)17.36
- VB程序设计及应用(第3版十二五职业教育国家规划教材)14.32
- Java Web从入门到精通(附光盘)/软件开发视频大讲堂27.92
推荐书目
-

孩子你慢慢来/人生三书 华人世界率性犀利的一枝笔,龙应台独家授权《孩子你慢慢来》20周年经典新版。她的《...
-

时间简史(插图版) 相对论、黑洞、弯曲空间……这些词给我们的感觉是艰深、晦涩、难以理解而且与我们的...
-

本质(精) 改革开放40年,恰如一部四部曲的年代大戏。技术突变、产品迭代、产业升级、资本对接...
[
