摘要
直接从音频的原始波形学习声学模型具有挑战性。当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征。在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入。我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征。我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量。我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小。实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%。
引文
[1]许可.卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012.
[2]Lee Y K,O.W.Kwon.A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.
[3]李勇.新型MFCC和波动模型相结合的二层环境声音识别[J].计算机工程与应用47.30(2011):132-135.
[4]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
[5]邱爽等.自归一化卷积神经网络的人脸识别方法[J].云南大学学报(自然科学版),2018(4).
[6]曹川,张红英.基于改进残差网络的人脸识别算法[J]."传感器与微系统,2018(8).
[7]Kingma,Diederik P,J.Ba.Adam:A Method for Stochastic Optimization.Computer Science,2014.
[8]曹大有,胥帅.基于TensorFlow预训练模型快速、精准的图像分类器[J]."汉江师范学院学报,2017,37(3).
[9]Abadi,Martin.Tensor Flow:learning functions at scale."Acm Sigplan Notices,2016,51(9):1.
[10]Senior,Andrew,I.Lopez-Moreno."Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics,Speech and Signal Processing IEEE,2014:225-229.
[11]李祚泳,彭荔红.BP网络过拟合现象满足的不确定关系新的改进式[J].红外与毫米波学报,2002,21(4):293-296.