使用原始音频波形的超深层环境声音识别卷积网络

设为首页

收藏本站

网站地图 | English | 公务邮箱

远程访问

NSTL服务站

使用原始音频波形的超深层环境声音识别卷积网络

详细信息查看全文 | 推荐本文 |

作者：戴本尧
关键词：原始音频波形 ; 人工智能 ; 深度学习
中文刊名：DNZS
英文刊名：Computer Knowledge and Technology
机构：浙江工贸职业技术学院;
出版日期：2019-03-15
出版单位：电脑知识与技术
年：2019
期：v.15
语种：中文;
页：DNZS201908058
页数：3
CN：08
ISSN：34-1205/TP
分类号：136-138

摘要

直接从音频的原始波形学习声学模型具有挑战性。当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征。在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入。我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征。我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量。我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小。实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%。

引文

[1]许可.卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012.
    [2]Lee Y K,O.W.Kwon.A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.
    [3]李勇.新型MFCC和波动模型相结合的二层环境声音识别[J].计算机工程与应用47.30(2011):132-135.
    [4]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
    [5]邱爽等.自归一化卷积神经网络的人脸识别方法[J].云南大学学报(自然科学版),2018(4).
    [6]曹川,张红英.基于改进残差网络的人脸识别算法[J]."传感器与微系统,2018(8).
    [7]Kingma,Diederik P,J.Ba.Adam:A Method for Stochastic Optimization.Computer Science,2014.
    [8]曹大有,胥帅.基于TensorFlow预训练模型快速、精准的图像分类器[J]."汉江师范学院学报,2017,37(3).
    [9]Abadi,Martin.Tensor Flow:learning functions at scale."Acm Sigplan Notices,2016,51(9):1.
    [10]Senior,Andrew,I.Lopez-Moreno."Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics,Speech and Signal Processing IEEE,2014:225-229.
    [11]李祚泳,彭荔红.BP网络过拟合现象满足的不确定关系新的改进式[J].红外与毫米波学报,2002,21(4):293-296.

地址：北京市海淀区学院路29号邮编：100083

电话：办公室：(+86 10)66554848；文献借阅、咨询服务、科技查新：66554700