用户名: 密码: 验证码:
使用原始音频波形的超深层环境声音识别卷积网络
详细信息    查看全文 | 推荐本文 |
  • 作者:戴本尧
  • 关键词:原始音频波形 ; 人工智能 ; 深度学习
  • 中文刊名:DNZS
  • 英文刊名:Computer Knowledge and Technology
  • 机构:浙江工贸职业技术学院;
  • 出版日期:2019-03-15
  • 出版单位:电脑知识与技术
  • 年:2019
  • 期:v.15
  • 语种:中文;
  • 页:DNZS201908058
  • 页数:3
  • CN:08
  • ISSN:34-1205/TP
  • 分类号:136-138
摘要
直接从音频的原始波形学习声学模型具有挑战性。当前基于音频的原始波形的模型一般使用很少的卷积层,可能不足以构建抽象的可区分性特征。在这项工作中,我们提出了一个非常深的卷积神经网络(VGCNN),这个网络模型直接使用时域波形作为输入。我们的VGCNN有多达34个卷积层,有效从音频原始序列中(例如,大小为32000的音频原始序列)提取了抽象的可区分性特征。我们的网络是全卷积网络,不使用全连接层和下采样层,以最大化的保留原始特征并且降低参数量。我们用一个在第一卷积层中的大的感受野来提取长时时序,随后的各层卷积中的卷积核是非常小的感受野以便控制模型大小。实验证明我们提出的具有18个卷积层的CNN,在环境声音识别任务绝对精度超过目前主流模型15%。
        
引文
[1]许可.卷积神经网络在图像识别上的应用的研究[D].浙江大学,2012.
    [2]Lee Y K,O.W.Kwon.A phase-dependent a priori SNR estimator in the logmel spectral domain for speech enhancement.IEEE International Conference on Consumer Electronics IEEE,2011:413-414.
    [3]李勇.新型MFCC和波动模型相结合的二层环境声音识别[J].计算机工程与应用47.30(2011):132-135.
    [4]周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251.
    [5]邱爽等.自归一化卷积神经网络的人脸识别方法[J].云南大学学报(自然科学版),2018(4).
    [6]曹川,张红英.基于改进残差网络的人脸识别算法[J]."传感器与微系统,2018(8).
    [7]Kingma,Diederik P,J.Ba.Adam:A Method for Stochastic Optimization.Computer Science,2014.
    [8]曹大有,胥帅.基于TensorFlow预训练模型快速、精准的图像分类器[J]."汉江师范学院学报,2017,37(3).
    [9]Abadi,Martin.Tensor Flow:learning functions at scale."Acm Sigplan Notices,2016,51(9):1.
    [10]Senior,Andrew,I.Lopez-Moreno."Improving DNN speaker independence with I-vector inputs.IEEE International Conference on Acoustics,Speech and Signal Processing IEEE,2014:225-229.
    [11]李祚泳,彭荔红.BP网络过拟合现象满足的不确定关系新的改进式[J].红外与毫米波学报,2002,21(4):293-296.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700