用户名: 密码: 验证码:
基于视觉与语音的新型鼠标研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
普通鼠标是一种手动的传统交互方式,满足不了特殊人群的需求,譬如手臂残疾的人和游戏爱好者就期望采用多种交互方式来操作PC。随着图像、视觉核心算法的发展,语音识别的理论和应用研究的进展,再加上CCD、CMOS图像传感器制造工艺的成熟,为基于视觉与语音的鼠标实现提供了条件。
     本文主要的研究是基于视觉与语音的新型鼠标。首先对各种视觉跟踪算法的实现方法进行探讨。在充分了解各种算法优缺点的基础上,系统采用鼻子特征跟踪的方法来作为鼠标的光标移动,采用眼睛睁合判断的方法作为鼠标按键的操作,用HALCON视觉处理软件对各算法进行仿真,并在Visual Basic中调用HALCON库函数加以实现。另外,鼠标按键的操作还可选用语音识别的方式来实现,文中用MATLAB仿真实现了DTW(动态时间规整)算法,该算法训练方法简单,计算量小,适合于本系统的设计。采用Visual Basic与Matlab混编的方式在Visual Basic中调用创建的COM组件,实现语音识别的功能,进行性能测试。将视觉跟踪模块与语音识别模块结合起来,根据基于视觉与语音鼠标的体系结构进行设计,编写全部程序进行系统的整体调试,调试成功后进行预定的实验,记录实验结果。将视觉与语音技术应用于鼠标中,在国内还没有人开发研究,这无疑很有研究的价值,具有一定的市场潜力。
     从完成的设计表明,基于视觉与语音的方案可以完成鼠标的基本功能,而且可以适用于特殊人群。但本系统还处于研究设计阶段,还不够完善,后续工作将主要围绕算法性能的提高,程序的优化以及其他一些细节问题作进一步的改善、测试。
Ordinarily mouse is the tradition alternation mode with hand but the people with hand deformity and game enthusiast wish to operate PC with manifold alternations. It is likely to realize mouse based on vision and word recognition with the development of CCD、CMOS image sensor's manufacture technics and image、vision arithmetic.
     The paper most research and realize the new pattern mouse based on vision and voice. Firstly, the paper discuss all the methods of realizing vision track arithmetic, the system use top of nose character track as cursor motion, use eyes' open and close as the operate of keystroke, use Halcon to simulate the arithmetic and realize with Visual Basic. Otherwise, the operation of keystroke can also realize with voice recognize. The paper simulate the DTW arithmetic with Matlab to create COM module, and mix-programme with Visual Basic and Matlab , then performance test. The training method of the arithmetic is simple , it's fit for system's design. Lastly, combine the vision track module and voice recognize module, and debug the whole system, note the experiment result. Application vision and voice to mouse, there is nobody research inland, and this is no doubt worth to studying. Full of marketing potential.
     The completed design indicated that the scheme based on vision and voice could fulfill the mouse's function, and it is fit for special persons. However, this system has been designed and completed experimentally. The following work will mainly improve and develop the arithmetic and optimize the program as well as some detail problems.
引文
[1]吴恩红,无线激光鼠标测试系统的研究[D],[学位论文],吉林:吉林大学,2005
    [2]何湘智,语音识别技术应用研究,湖南广播电视大学学报2005(2),72-73
    [3]章炜,机器视觉技术发展及其工业应用,红外,2006,27(02),11-17
    [4]梁路宏,艾海舟,徐光佑,人脸监测研究综述,计算机学报,2002,25(5),449-458
    [5]高向东,黄石生,余英林,计算机视觉在焊缝跟踪控制中的应用,控制理论与应用,2001,18(1),26-30
    [6]刘曙光,刘明远,机器视觉及其应用,机械制造,2000,38(07),20-22
    [7]段峰,王耀南,雷晓峰,机器视觉技术机器应用综述,自动化博览,2002,19(3),59-61
    [8]艾海舟,机器视觉及其应用,科学中国人,1997(9),23-25
    [9]董再励,朱枫,一种基于视觉的移动机器人定位系统,中国图像图形学报,2000(5),8-8
    [10]V Kastrinaki K Kalaitzakis,A Survey of video Processing Techniques for Traffic Application,Image and Vision Computing,2003(21),359-381
    [11]徐国保,尹怡欣,周美娟,智能移动机器人技术现状及展望,2007(2),29-34
    [12]范成法,叶秀清,顾伟康,一个基于知识的道路图像理解系统,计算机研究与发展,1999,36(9),1110-1115
    [13]杨明,王宏,基于视觉的道路跟踪,模式识别与人工智能,2001,14(02),186-193
    [14]孙振平,贺汉根,视觉导航的自主车,机器人,2002,24(2),115-121
    [15]孙涵,任明武,唐振民,杨静宇,基于机器视觉的智能车辆导航综述,公路交通科技,2005,22(5),132-135
    [16]庄健,视觉伺服移动机器人中的图像处理研究,西安交通学报,2002,36(03),27-31
    [17]MORIMOTO,C.,AND FLICKNER,M.2000.Real-time multiple face detection using active illumination.In Proc.of the 4''IEEE International Conference on Automatic Face and Gesture Recognition,2000,8-13
    [18]陶霖密,机器视觉中的颜色问题及应用,科学通报,2001(03),24-27
    [19]杜威,李华,基于单目视觉的手势识别系统,工程图学学报,2000,21(3),133-138
    [20]M.Eriksson and N.Papanikotopoulos.Eye tracking for detection of driver fatigue.In IEEE Conference on Intelligent Transportation Systems,1997,314-319.
    [21]HARD,A,FLICKNER,M.,AND ESSA,Detecting and Tracking Eyes By Using Their Physiological Properties,Dynamics,and Appearance,In Proceedings IEEE CVPR,2000,163-168
    [22]汪黎明,戚飞虎,周颢,基于肤色的实时人脸跟踪新方法,计算机工程,200329(14),55-57
    [23]赵丽红,刘纪红,徐心和,人脸检测方法综述,人工智能与机器人研究所,2004,21(9),1-4
    [24]钟威,刘智明,周激流,人脸检测中眼睛精确定位的研究,计算机工程与应用,2004,40(36),73-76
    [25]易克初,田斌,付强,语音信号处理,北京:国防工业出版社,2000.02
    [26]刘加,汉语大词汇量连续语音识别系统的研究进展,电子学报,2000,28(1),85-91
    [27]L.R.Rabiner,B.H.Juang,Fundamentals of Speech Recognition,New Jersey:Prentice-Hall,1993.03,56-58
    [28]雷思孝,李伯成,雷向莉,单片机原理及实用技术,西安:西安电子科技大学出版社,2004
    [29]李晶皎,嵌入式语音技术及凌阳16位单片机应用,北京:北京航空航天大学出版社,2003.06
    [30]J Bellegarda,Statistical Techniques for Robust ASR:Review and Perspectives,Proc.Eurospeech'97.Greece,1997,33-36
    [31]R Zheng,Z Y Wang,Speech Adaptation:An Overview,Chinese Journal of Electro-nics,1998.7(2),122-127
    [32]B H Juang,The Past.Present and Future of Speech Processing,IEEE Signal Processing Magazine,1998,24-48
    [33]E Charniak,Statistical Language Learning,Bradford MIT Press,1993,67-69
    [34]R Rosenfeld,A Hybrid Approach to Adaptive Statistical Modeling,Proc Human Language Technology Workshop,Plainsboro NJ,Morgan Kaufman Publishers Inc,1994,76-81
    [35]熊超,田小芳,陆起涌,嵌入式机器视觉系统设计,仪器仪表学报,2005,26(26),368-370
    [36]丁玉国,刘加,刘润生,嵌入式系统上的实时语音识别算法,数据采集与处理,2005.20(3),302-305
    [37]刘幺和,沈平,杨光友,基于凌阳SPCE061A的语音识别技术[M],湖北工业大学学报,2005,20(6),28-30
    [38]张俊,李介谷,基于面部几何特征点提取的人脸识别方法,红外与激光工程1999,28(04),40-43
    [39]周杰,张长水,人脸自动识别方法综述,电子学报,2000(28),102-106
    [40]张丽敏,李粉兰,刘瑾,一种实用的眼睛睁合判断方法,现代仪器,2005,11(4),49-51
    [41]钟威,刘智明,周激流,人脸检测中眼睛定位的研究,计算机工程与应用,2004,40(36),73-76
    [42]冯建强,刘文波,于盛林,基于灰度积分投影的人眼定位,计算机仿真,2005.4,22(4),75-76
    [43]于威威,腾晓龙,刘重庆,复杂背景下人眼定位及人脸检测,计算机仿真,2004,21(12),185-188
    [44]刘明宝,姚鸿勋,高文,彩色图像的实时人脸跟踪方法,计算机学报,1998,21(6),302-305
    [45]Jang Gi-Jeong,Kweon I S.Real-time Face Tracking Using Adaptive Color Model.IPiu,2000,534-539
    [46]D.O.Gorodnichy,S.Malik,G.Roth,Nouse'Use Your Nose as a Mouse'-a New Technology for Hands-free Games and Interfaces,Computational Video Group,2002.5,27-29
    [47]Dmitry O.Gorodnichy,Gorodnichy,On Importance of Nose for Face Tracking,Computational Video Group,2002.5,181-186
    [48]李晓霞,王东木,语音识别技术评述,计算机应用研究,1999(10),1-3
    [49]刘彬,董金明,语音识别系统,电子测量技术,2005(6),40-40
    [50]赵强,基于语音识别的电话语音系统中关键技术的研究[D],[学位论文],北京:北京邮电大学,2005.3
    [51]刘庆升,语音识控技术及DSP应用[D],安徽:中国科技技术大学,2002.5
    [52]侯建华,熊承义,信号估计中的贝叶斯方法及应用,西南民族大学学报(自然科学版),2006,32(3),591-594
    [53]李潇,基于MATLAB的孤立字语音识别试验平台,四川理工学院学报(自然科学版),2006.1,19(3),97-100
    [54]于倩,李春利,自适应矢量量化在语音识别中的应用,现代电子技术,2006,30(6),128-130
    [55]Jan Stadermann,Gerhard Rigoll,Hybrid NN/HMM acoustic modeling techniques for distributed speech recognition,Technische Universitdt Munchen,2005.12,1037-1046
    [56]王倩,语音特征的神经网络识别,武汉工程职业技术学院学报,2006.5,18(1),65-69
    [57]林遂芳,张海英,潘永湘,基于DTW和LVQ网络混合模型的语音识别方法,系统仿真学报,2005,17(8),1959-1961
    [58]MVTec,HALCON Application Guide,2005.1
    [59]MVTec,HALCON for Visual Basic,2005.1
    [60]MVTec,HALCON/COM Reference Manual,2005.4
    [61]刘怀贤,姚晓东,常青,基于Canny算子的红外图像边缘检测研究,激光与红外,2007.5,37(5),474-477
    [62]方凯,方敏,基于Canny边缘检测的车牌字符分割方法,电脑知识与技术:学术交流,2007(3),1376-1378
    [63]曹婧华,冉彦忠,刘沛先,Canny算法在细胞图像边缘检测中的应用,中国医学装备,2007.1,4(1),36-37
    [64]徐大为,吴为,赵建伟,刘重庆,一种噪声环境下的实时语音端点检测算法计算机工程与应用,2003(01),115-117
    [65]贾爱娜,王靖琰,崔阳,语音识别中LPC特征矢量提取的研究与实现,中国科技论文在线,2006年
    [66]杨伟东、陈永斌,用于话者识别的一种自适应端点自动检测方法,第四届全国人机语音通讯学术会议论文,1994,北京,190-195
    [67]王倩,吴国平,陈琳,特定人语音识别算法——DTW算法,软件导刊,2005(20)
    [68]岳玉芳,尤忠生,张玉双,基于COM的Visual Basic与Matlab混合编程,计算机工程与设计,2005.1,26(1),61-62
    [69]吴伟,王贵奇,陈国定,基于Visual Basic和Matlab COM的控制系统仿真,控制工程,2006.5,125-127
    [70]苗敬利,兰娜,朱庆,基于Visual Basic和Matlab混编程控制系统稳定性分析[J],微计算机信息,2006(08S),246-247
    [71]矫明,徐宏,戚学贵,夏翔鸣,基于Visual Basic与Matlab混合编程的换热网络综合夹点技术软件设计,节能,2007,26(4),21-24
    [72]蒋铁海,刘朝晖,用Visual Basic设计Windows屏幕保护程序,计算机时代,2003(1).42-43

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700