用户名: 密码: 验证码:
基于神经网络的文本分类系统NNTCS的设计和实现
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
文本分类是文本挖掘的基础与核心,是近年来数据挖掘和网络挖掘的一个研究热点,在传统的情报检索、网站索引体系结构的建立和Web信息检索等方面占有重要地位。
     本文首先对当前文本分类领域几个关键问题的常用解决方法进行了研究,同时阐述了典型文本分类系统的核心技术和系统结构,对文本分类的应用范围进行了描述。然后着重介绍了一个基于神经网络的文本自动分类系统NNTCS,重点阐述了特征提取、空间降维、层次分类和分类器训练等技术的实现方法。
     在NNTCS中,第一步是对中文文档进行汉语分词,从文档中抽出特征词,并且统计各特征词的词频。
     系统使用神经网络作为分类器,特征词的词频组成原始特征向量,和神经网络输入层的神经元一一对应。在文本训练的时候,利用标记好的训练文档集进行网络训练,误差反馈算法对网络进行权值调整,得到固定的权值作为分类知识存储。而在文本分类的时候,输入待分类文档的特征向量,运行固定权值的网络,得到的输出值与阈值比较确定类别。
     系统中引入了信息检索中的常用技术——潜在语义索引,把原始向量空间转换到抽象的k维语义空间,实现原始向量空间的降维,提高网络训练速度和性能。
     神经网络在一般的模式识别中很常用,但是在文本分类中较少采用,主要原因是向量空间太庞大,网络性能受限制,而引入潜在语义索引对空间降维可以避免这种缺陷,两者相得益彰。
     训练过程中结合遗传算法,优化神经网络的初始权值。遗传算法有全局搜索的特点,可以避免神经网络局部收敛的问题,充分发挥遗传算法和神经网络各自的优势。
     最后对NNTCS进行了开放性测试,实验表明NNTCS对文本分类具有较高的平均查全率和平均精度。
Text classification is the basis and core of text mining, and plays an important rule in traditional information retrieval, construction of web site architecture, and search for web information. It has become a hot research project in recent years.
    At first the traditional solutions to some key technical problems in the field of TC are studied, also core techniques and system architecture of the typical TC systems are discussed, the applications of TC are described in this paper. Then this paper presents a text classifier based on neural networks (NNTCS) as the main topic. Some key techniques implemented in this classifier, such as feature extraction, dimension reduction, hierarchical classification and classifier training, are discussed in details.
    The first step in NNTCS is Chinese word segmentation on Chinese documents. Feature Terms are selected from documents. Term frequencies of each term are recorded.
    In NNTCS, we use artificial neural networks (ANN) as the classifier. The recorded term frequencies form the original feature vector, matching with neurons in the input layer of ANN one by one. In the stage of training, NNTCS applies labeled documents to ANN for training, and the error back propagation algorithm (BP) is employed to adjust weights of the networks. After training, the final fixed weights are saved as knowledge of classification. While in the stage of document classifying, NNTCS inputs feature vectors of the document to be classified, runs network with fixed weights, then compares the output with the predefined threshold to judge the class of the unlabelled document.
    NNTCS imports a traditional technique called Latent Semantic Indexing (LSI) for dimension reduction. LSI comes from the field of Information Retrieval. It transforms the original vector space to abstract k-dimension semantic space. So the huge dimensions of the original vector space are reduced greatly, also the training speed and system performance are improved.
    ANN is often used in common pattern recognition systems, but rarely in TC. It's because the vector space is so huge that the performance of ANN is weakened. LSI's advantage in dimension reduction can avoid this flaw. So both ANN and LSI are improved.
    NNTCS employs genetic algorithm (GA) in the stage of training to optimize initial weights of ANN. Because of GA's advantage of globally searching, it can avoid ANN'S problem of local convergence. Thus the advantages of both GA and ANN are brought into play completely.
    Finally an open test is done on the developed system NNTCS. As experiment results show, NNTCS can reach both high precision and high recall on average.
引文
[1] Jiawei Han,Micheline Kamber(范明,孟小峰等译).数据挖掘概念与技术.机械工业出版社,2001年.
    [2] 陈京民.数据仓库与数据挖掘技术.电子工业出版社,2002年.
    [3] David Hand(张银奎译).数据挖掘原理.机械工业出版社,2003年.
    [4] Abhijit S.Pandya, Robert B. Macy(徐勇,荆涛等译).神经网络模式识别及其实现.第一版.电子工业出版社,1999年,pp30—32,57--114.
    [5] 边肇祺,张学工等.模式识别.第二版.清华大学出版社,2000年,pp1-83,136-161,176-212,250-273.
    [6] 潘正君,康立山,陈毓屏.演化计算.第一版.清华大学出版社,1998年,pp16—35,124-132.
    [7] 蔡自兴,徐佑元.人工智能及其应用.清华大学出版社,1996年.
    [8] 石纯一,黄昌宁.人工智能原理.清华大学出版社,1993年.
    [9] Fabrizio Sebastiani. Machine Learning in Automated Text Categorization. ACM Computing Surveys, Vol. 34, No. 1, March 2002.
    [10] Y. Yang and X. Liu. A re-examination of text categorization methods, in 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99), 1999.
    [11] Y. Yang and J. Pedersen. A comparative study on feature set selection in text categorization. In Proc. of the 14th International Conference on Machine Learning, pages 412--420, Nashville, TN, 1997. Morgan Kaufmann.
    [12] S. Zelikovitz and H. Hirsh. Using lsi for text classification in the presence of background text. In Proceedings of 10th International Conference on Information and Knowledge Management, pages 113--118, 2001.
    [13] K. Nigam, A.K. McCallum, S. Thrun, and T. Mitchell Text Classification from Labeled and Unlabeled Documents using EM, Machine Learning, 39 2--3 (2000) 103--134.
    [14] 鲁松,白硕等.文本中词语权重计算方法的改进.2000 International Conference on Multilingual Information Processing, 2000.
    [15] 庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现.中图法分类号TP391.
    [16] 冯项云.LSI潜在语义标引方法在情报检索中的应用.现代图书情报技术,1998年第4期,pp19-22.
    [17] 陶跃华,孙茂松.基于潜语义标引的自然语言检索.现代图书情报技术,
    
    2001年第5期,pp40-41.
    [18]林鸿飞,高仁璟.基于潜在语义索引的文本摘要方法.大连理工大学学报,2001年11月第41卷第6期,pp744-748.
    [19]周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究.小型微型计算机系统,第22卷第2期2001年2月,pp239-243.
    [20]林鸿飞.基于示例的文本标题分类机制.计算机研究与发展,2001年9月第38卷第9期,pp1132-1136.
    [21]林鸿飞,姚天顺.基于示例的中文文本过滤模型.大连理工大学学报.2000年5月第40卷第3期,pp375-378.
    [22]林鸿飞,高天,姚天顺.中文文本的可视化表示.东北大学学报,2000年10月第21卷第5期,pp501-504.
    [23]刘明吉,王秀峰,饶一梅,黄亚楼.Web文本信息的特征获取算法.小型微型计算机系统,2002年6月第23卷第6期,pp683-686.
    [24]李勇,桑艳艳.网络文本数据分类技术与实现算法.情报学报,2002年2月第21卷第1期,pp21-26.
    [25]王继成,潘金贵,张福炎.Web文本挖掘技术研究.计算机研究与发展,2000年5月第37卷第5期,pp513-520.
    [26]韩客松,王永成.文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理.情报学报,2001年2月第20卷第1期,pp100-104.
    [27]都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究.计算机工程,2002年11月第28卷第11期,pp137-139.
    [28]牛忠兰,陈跃新,徐正同,潘鲁军.网络文本自动分类系统的研究与设计.微处理机,2002年5月第2期,pp41-43.
    [29]唐懿芳,牛力,傅赛香,严小卫.文本的自动分类.广西师范大学学报,2001年12月第19卷第4期,pp50-55.
    [30]陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造.计算机研究与发展,2002年10月第39卷第10期,pp1205-1210.
    [31]李凡,鲁明羽,陆玉昌.关于文本特征抽取新方法的研究.清华大学学报(自然科学版),2001年第41卷第7期,pp98-101.
    [32]朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统.计算机工程,2001年2月第27卷第2期,pp15-18.
    [33]黄昌宁.中文信息处理中的分词问题.语言文字应用,1997年第1期,pp72-78.
    [34]郭祥昊,钟义信,杨丽.基于两字词簇的汉语快速自动分词算法.情报学报,第17卷第5期1998年10月,pp352-357.
    [35]王兵,苏恩泽.具有学习功能的书面汉语自动分词系统.计算机工程,第21卷第4期1995年7月,pp59-61.
    [36]应志伟,柴佩琪,陈其晖.文语转换系统中基于语料的汉语自动分词研究.计
    
    算机应用,第20卷第2期2000年2月,pp8-11.
    [37]郭辉,苏中义,王文,崔骏.一种改进的MM分词算法.微型电脑应用,2002年第18卷第1期,pp13-16.
    [38]黎明,严超华,刘高航.遗传算法优化前向神经网络结构和权重矢量.中国图象图形学报,第4卷(A版)第6期1999年6月,pp491-496.
    [39]李凡,陈东.遗传算法在前馈神经网络中的应用.华中理工大学学报,第27卷第2期1999年2月,pp81-83.
    [40]李蓉,叶世伟,史忠植.一种提高SVM分类精度的新方法.电子学报,第5期2002年5月,pp745-748.
    [41]王国胜,钟义信.支持向量机的若干新进展.电子学报,第10期2001年10月,pp1397-1400.
    [42]刁倩,王永成,张惠惠,何骥.VSM中词权重的信息熵算法.情报学报,第19卷第4期2000年8月,pp354-358.
    [43]蒋晓冬,金宇晖,强庆华.基于改进VSM的大规模真实文档自动分类系统的研究和实现.现代计算机,1998年4月.
    [44]姜恩波.搜索引擎的信息过滤技术.现代图书情报技术,2001年第3期,pp33-35.
    [45]成颖,史九林.自动分类研究现状与展望.情报学报,第18卷第1期1999年2月,pp20-26.
    [46]郭艳华,周昌乐.自然语言理解研究综述.杭州电子工业学院学报,第20卷第1期2000年2月,pp58-65.
    [47]李蕾,钟义信,郭祥昊.面向特定领域的理解型中文自动文摘系统.计算机研究与发展,第37卷第4期2000年4月,pp493-497.
    [48]陈浪舟,黄泰翼.一种新颖的自然语言主题转换精确定位方法.软件学报,第10卷第12期1999年12月,pp1246-1252.
    [49]Maosong Sun, Dayang Shen, and Benjamin K. Tsou. 1998. Chinese word segmentation without using lexicon and hand-crafted training data. In Proc. of COLING-ACL '98, pages 1265--1271.
    [50]Li B.Y., Lin S., Sun C.E and Sun M.S. A maximal matching automatic Chinese word segmentation algorithm using corpus tagging for ambiguity resolution, Proceedings of R. O. C. Computational Linguistics Conference Ⅳ, Taiwan, ROCLING-Ⅳ 1991. 135--146.
    [51]Li Hai-Zhou and Yuan Bao-Sheng. Chinese word segmentation, Proceedings of the 12th Pacific Asia Conference on Language, Information and Computation, PACLIC-12, 1998. 212--217.
    [52]L. Blum and P Langley. Selection of relevant features and examples in machine learning. Artificial Intelligence, 97:245--271, 1997.
    [53]Nello Cristianini, Huma Lodhi, and John Shawe-Taylor. Latent semantic kernels
    
    for feature selection. Technical Report NC-TR-2000-080, Department of Computer Science, University of London, June 2000.
    [54]Mladeni'c, D., Feature subset selection in text-learning, Proc. of the 10th European Conference on Machine Learning ECML98, 1998.
    [55]M. Hall and L. A. Smith, Practical feature subset selection for Machine Learning, Proceedings of the Australian Computer Science Conference (University of Western Australia), February 1996.
    [56]F. Ferri, V. Kadirkamanathan, and J. Kittler. Feature subset search using genetic algorithms. In Proceedings of the IEE/IEEE Workshop on Natural Algorithms in Signal Processing
    [57]Wang, Hui and Bell, David and Murtagh, Fionn. Relevancy Approach to Feature Subset Selection. In Feature Extraction, Construction, and Selection. A Data Mining Perspective, Huan, Liu and Hiroshi, Motoda (eds.). pages 85-99, ISBN: 079238198X, Kluwer Academic Publisher, 1998.
    [58]Weigend, A. S., Wiener, E.D., and Pedersen, J.O. 1999. Exploiting hierarchy in text catagorization, lnform. Retr. 1,3,193-216.
    [59]Yang, Y. 1994. Expert network: effective and efficient learning from human decisions in text categorization and retrieval In Proceedings of SIGIR-94, 17th ACM International Conference on Research and Development in Information Retrieval, 13-22.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700