用户名: 密码: 验证码:
基于潜语义与遗传算法的中文文本特征获取方法研究
详细信息    本馆镜像全文|  推荐本文 |  |   获取CNKI官网全文
摘要
面对海量信息,如何帮助人们有效地收集和选择感兴趣的信息,如何帮助用户在日益增多的信息中发现潜在有用的知识已成为信息技术领域的热点问题之一。数据挖掘技术成为解决这一问题的有力工具。自90年代产生以来,对数据挖掘的研究已经比较深入,研究范围涉及到关联分析、分类分析、聚类分析、趋势分析等多个方面。由于现实生活中绝大部分信息资源是以半结构或非结构化数据的形式存在,而对数据挖掘的对象普遍以结构化数据的形式呈现,如关系数据库中的数据为对象,因此对非结构化信息进行挖掘成为数据挖掘的新课题。
     本文以文本数据为研究对象,对文本挖掘中若干关键技术进行研究,主要包括中文分词、潜在语义分析(LSA)、遗传算法(GA)等,并提出更有效的文本特征获取算法。本文的研究工作和创新内容包括以下几个方面:
     1)对现有的中文分词技术进行了研究,提出了一种改进的最大匹配算法;改进的分词算法可以灵活设置字串长度,提高了词条匹配成功率,从而提高了整个切分过程的效率。
     2)分析了潜在语义分析模型,并对其权重计算公式进行了扩展,并给出基于LSA的文本特征获取方法及文本检索算法实现,此方法吸取了潜语义分析的优点,将词汇空间映射为潜在语义空间,更加全面地再现特征词与文本之间的关系。在LSA语义空间中能检索出语义相近的特征。
     3)对遗传算法的主要要素(编码、适应度函数、选择算子、交叉算子、变异算子)进行了深入研究,并对各要素进行了分析,提出了编码、适应度函数、选择算子、交叉算子和变异算子的改进方法,并对基于改进了的交叉算子与变异算子的遗传算法分别进行了实验,实验说明改进的遗传算法的有效性。对遗传算法的性能评价函数提出了改进的方法,以及基于遗传算法的特征获取方法。
     4)实验分析结果表明:在小文本库中使用潜语义分析模型可以得到较好的效果,但在文本数量较大时,其计算量呈指数级增加。而遗传算法在文本特征不是很多的时候,因为早熟较快,难以找到较为理想的特征,所以把它运用到较大的文本库的特征获取时效果会比较好。
To face the multitude of information, how to help people to effectively collect and select information of interest, in the growing number of information, how to help users to found potentially useful knowledge has become hot spot of information technology in the world. Data mining becomes is research field for solving the problems. Since 1990s, the data mining research has been more in-depth and scope of the study involved association analysis, class analysis, cluster analysis, trend analysis etc. Because is most information resources exist in the form of unstructured data reality life, data mining is generally to structured data as object such as data of relational database, so unstructured information data mining will become another topic after data mining.
     This paper is based on the text data as study object, and makes study for some key problems of text mining, including Chinese word segmentation, latent semantic analysis (LSA), genetic algorithms (GA), and proposes more effective algorithm of the text feature gain. This research and innovation include the following aspects in this paper:
     1) We make to study for existing Chinese word segmentation, put forward a modified maximum matching algorithm; Improved segmentation algorithm can be flexibly configured string length, raising the success rate of matching entries. Thereby we raise the efficiency of overall segmentation process.
     2) We analysis latent semantic analysis model, and for weight formulas make to expand, and give the text feature access method based on LSA and apply them to text retrieval, this method draw the advantages of latent semantic analysis, using latent semantic space, the vocabulary space is mapped a potential semantic space, depicts the relationship between feature words and text.
     3) It is made in-depth research for genetic Algorithm main elements (coding, fitness, selection operator, crossover operator, mutation Operator) and analysis these elements, propose improved method for coding, fitness, selecting operator, crossover and mutation operator, and make experiment based on the improved crossover and mutation operator of the genetic algorithm. The improvement method of evaluation function genetic algorithm is obtained. Finally, based on the genetic algorithm characteristics method is gained the text feature.
     4) The results of experiment are analysis show: in the small text using Latent Semantic Analysis Model can get a better effect, but the large number in the text, calculating the volume level increased exponentially. Genetic algorithms in the text feature are not many, for precocious faster, it is difficult to find a more ideal characteristics So it applied to gain feature of the larger text library,the results are better.
引文
[Waynek Talley. 2001] Waynek Talley.Ocean Container Shipping:Impacts of a TechnologicalImprovement[EB/OL].Http//:www.oduport.org,2001-01-10.
    [Steve Lawrence 1999] Steve Lawrence, C. Lee Giles. Accessibility of information on theWeb.Nature, 1999, Vol.300, No.6730,107-109.
    [Holland J H.1975] Holland J H. Adaptation in natural and artificialsystem[M].AnnArbor,USA:The University of MichiganPress,1975.
    [Weiguo Fan,2003] Weiguo Fan , Michael D. Gordon. A generic ranking function discoveryframework by genetic programming for information retrieval . Praveen Pathak 2003 Published byElsevierLtd.doi:10.1016/j.ipm.2003.08.001.
    [Jialun Qin,2005] Jialun Qin & Hsinchun Chen. Using Genetic Algorithm in BuildingDomain-Specific Collections: An Experiment in the Nanotechnology Domain . 2005 IEEE
    [Goldberg D.1989] Goldberg D.Genetic Algorithms in Search, Optimization and MachineLearning.Addison Wesley, 1989
    [Sahami 1999] Sahami M. Using Machine Learning to Improve InformationAccess,Stanford:Stanford University, 1999.
    [Barbara Rosario 2000] Barbara Rosario .Latent Semantic Indexing: An overview.INFOSYS 230Spring 2000,Final Paper
    [M. Dash 2002] M. Dash 1, H. Liu 2.Feature Selection for Classification,Department ofInformation Systems & Computer Science, National University of Singapore, Singapore 119260
    [Yossi Borenstein ,Riccardo Poli] Information Landscapes and Problem Hardness. 2005 ACM1-59593-010-8/05/0006
    [Yong-Hyuk Kim,Byung-Ro Moon] New Topologies for Genetic Search Space. 2005 ACM1-59593-010-8/05/0006
    [Deerwester S.. 1990] Deerwester S., Dumais S. T., Furnas G. W., Landaure T. K.,Harshman,R.Indexing by Latent Semantics Analysis, Journal of the American Society forInformation Science, 1990, Vol.31,No.6, 391-307
    [Landaues T. K. 1998] Landaues T. K., Foltz P. W., Laham D.An Introduction to LatentSemantic Analysis. Discourse Processes 25, 1998, 259-283
    [Dumais S.19 88] Dumais S., Furnas G., Landauer T., Scott D., et al. Using Latent SemanticAnalysis to Improve Access to Textual Information. Proceedings of Computer Human Interaction,1988. P281-285
    [Landauer, T. K., Dumais, S. T. 97] A Solution to Plato's Problem: The Latent SemanticAnalysis Theory of the Acquisition, Induction, and Representation of Knowledge. PsychologicalReview, 1997, Vol.103,211-230.
    [K Kira,L A Rendell 1992] The Feature Selection Problem:Traditional Methodsanda NewAlgorithm[A].Proc of 9th National Conf on AI[C] 1992.129-133.
    [GH John,R Kohavi,K Pfleger 1993] Irrelevant Features and the Subset SelectionProblem[A].Proc of the 11th Int.] Conf on Machine Learning[C]. 1993.121-129.
    [D Koller,M Sahami.Toward 1996] Optimal Feature Selection[A].Proc of Int.1 Conf on MachineLearning[C]. 1996.283-292.
    [ManoranjanDash,HuanLiu 1997] Feature Selection for Classification[J]. Intelligent DataAnalysis, 1997,1(3): 13121561
    [Reinhold Huber,LucianoVDutra 1998] Feature Selection for ERS21/2 In SARClassification:High Dimensionality Case[A].ProcofInt.1 Geoscience and Remote Sensing SympProceedings 1 Vol3[C] 1998:16052-16071
    [YYamagata,HOguma 1997] Bayesian Feature Selection for Classifying Multi Temporal SAR andTM Data[A] Procof Int.1 Geoscience and Remote Sensing Sympl Vol2[C] 1997:9782-9801
    [ALBlum,PLangley 1997] Selection of Relevant Feature and Examples in MachineLearning[J] :Artificial Intelligence, 1997,97:23522711
    [MScherf,WBrauer 1997] Feature Selection by Means of a Feature WeightingApproach[Z]:Technical University Munchen,1997.
    [BChakraborty 20027 Genetic Algorithm with Fuzzy Fitness Function for FeatureSelection[A]:Proc of the 2002 IEEE Int.1 Symp on Industrial Electronics Vol 1 [C]:2002,315-319
    [陈真勇2002]陈真勇,何永勇,褚福磊,黄靖远.基丁遗传进化的最近邻聚类算法及其应用,控制与决策,V01.17No.3:1001-0920(2002)03-0369-03,2002年7月
    [梁南元1997】梁南元.《书面汉语自动分词系统--CDWS》.中文信息学报61(2),1997
    [刘明吉2002]刘明吉,王秀峰,饶一梅,黄亚楼.Web文本信息的特征获取算法.小型微型计算机系统,2002,Vol.23 No.6,683-686
    [王小平2001]王小平,曹立明著.遗传算法--理论、应用与软件实现.西安:西安交通大学出版社,2001年
    [周 明1999]周明,孙树栋.遗传算法原理及其应用.国防工业出版社,1999年
    [黄绪明2005]黄绪明.一类改进的遗传算法.长沙大学学报,Vol.19 No.5Sep.2005
    [李韪韬2006]李韪韬,王惠南,钱志余。遗传算法的一种新颖编码研究,信息与控制:Vol.35,No.5:100220311(2006)0520623205,2006年1O月
    [高坚2003]高坚.基于C-均值和免疫遗传算法的聚类分析[J].计算机工程:2003,29(12):65-66,193
    [晋耀红2003]晋耀红.一个基于语境框架的文本特征提取算法.计算机研究与发展,2003,31(3):582-586
    [唐晓文2005]唐晓文.基于本体论的文本特征提取.电脑与信息技术,2005,13(1):36-38
    [赵 林2003]赵林等.基于知网的概念特征抽取方法.通信学报,2003,25(7):36-53
    [李敏强2002]李敏强,寇纪淞等.遗传算法的基本理论与应用.科学出版社,2002.
    [冯项云1998]冯项云.LSI潜在语义标引方法在情报检索中的应用.《现代图书情报技术》1998年第3期:35-38
    [湛 燕2003]湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究.计算机工程与应用,2003,Vol(23):87~91
    [王 科2003]王科,高常波,翟雪峰,罗万伯.汉语分词的主要技术及其应用展望.通信技术,2003,Vol(6):12~15
    [周水庚2001]周水庚,关估红,胡运发.隐含语义索引及其在中文文本处理中的应用研究.小型微型计算机系统,2001,Vol.22,No2.239-233
    [吴卫华2005]昊卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法.计算机与数字工程,第33卷(2005)第3期:11~13
    [张葛祥2005]张葛祥,金炜东,胡来招.基于量子遗传算法的特征选择算法.控制理论与应用,2005年10月:1000-8152(2005)05—0810-03
    [陈 涛 2005]陈涛,谢阳群.文本分类中的特征降维方法综述.情报学报,2005,Vol.23,16:691-695
    [李样明2000]李样明.关于矩阵奇异值分解的注记.数学研究与评论,2000年5月,Vol.20No.2:0311-02
    [陈真勇2002]陈真勇,何永勇,褚福磊,黄靖远.基于遗传进化的最近邻聚类算法及其应用.控制与决策,2002,Vol.17No.3:0369-03
    [赵世奇2005]赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法.中文信息学报:1003-0077(2005)06-0021-07
    [许建潮2005]许建潮,胡明.中文Web文本的特征获取与分类.计算机工程,2005,Vol.31,No.8:0023-02
    [吕 军2006]吕军,博琴,李波.基于遗传算法的属性约简.微电子学与计算机,2006,V01.23,No.7:151~153.
    [郭东伟2002]郭东伟.遗传算法运行机理的研究.吉林大学博士学位论文,2002
    [任纪生2005]任纪生.一种新的潜在语义分析语言模型.高技术通讯,2005年8月vol.15No.8
    [王作英2002]王作英.基于Bayes潜在语义模型的半监督Web挖掘.2002软件学报,Vol.13,No.8:1000-9825
    [宫秀军2005]宫秀军,史忠植.基于概念的文本类别特征提取与文本模糊匹配,计算机工程与应用.2005,第26卷第5期
    [彭佳红2005]彭佳红,沈岳,张林峰.数据挖掘中的特征选择及其算法研究.计算机工程与设计,2005年,第30卷,第3期
    [刘丽珍2003]刘丽珍,宋瀚涛.文本分类中的特征选取.计算机工程,2003年2月,Vol.30,No. 3
    [周 茜2003]周茜,赵明生,扈名.中文文本分类中的特征选择研究.中文信息学报,第18卷第3期,文章编号:1003.0077(2003)03-0017-07
    [代六玲2003]代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究.中文信息学报,第18卷第1期,文章编号:1003-0077(2003)01-0026-07
    [刘维群2006]刘维群,李元臣.基于遗传算法的个性化信息的特征提取.现代情报,2006,Vol.1,No.6
    [胡选子2006]胡选子,谢存禧.一种条件概率与遗传算法相结合的分类方法.微电子学与计算机,2006年第23卷第10期
    [吕 军2006]吕军,冯博琴,李波.基于遗传算法的属性约简,微电子学与计算机,2006年第23卷第7期
    [袁军鹏2006]袁军鹏,朱东华.文本挖掘技术研究进展.计算机应用研究,2006年第2期:1-3
    [倪现君2006]文本挖掘在web中的技术分析.中国科技信息,2006年第3期:23-23
    [胡佳妮2005]胡佳妮,徐蔚然.中文文本分类中的特征选择算法研究.光通信研究,2005年第3期:33-36
    [付德宇2006]付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法,计算机工程与应用,2006,vol.15:0165-03
    [王秀娟2005]王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法.计算机应用,2005,Vol.25 No.3:0661-03
    [饶文碧2006]饶文碧,柯慧燕.Web文本分类技术研究及其实现.计算机技术与发展,2006,Vol.16 No.3:0116-03
    [肖 雪2006]肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究.计算机应用,2006,Vol.26
    [王本年2005]王本年,陈世福,谢俊元.一种基于全局协同与局部进化的遗传算法.计算机工程,2005,Vol.31,No.19:1000-3328(2005)19-0029-03
    [恽为民1996]恽为民,席裕庚.遗传算法的全局收敛性和计算效率分析.控制理论与应用,1996,Vol.13,No.3:355-361
    [徐宗本1996]徐宗本,高勇.遗传算法过早收敛现象的特征分析及其预防.中国科学(E辑)1996,Vol.26,No.3:363-372
    [郭东伟1996]郭东伟,刘大有,周春光,张仲明.遗传算法收敛性的动力学分析及其应用.计算机研究与发展,1996,Vol.39,No.2
    [汤亚玲2006]汤亚玲,崔志明.基于遗传算法的Web行为挖掘研究.微电子学与计算机,2006年第23卷第8期:168-03
    [田东平2006]田东平,迟洪钦.混合遗传算法与模拟退火法.计算机工程与应用2006.NO.22:63~65
    [Thanyaluk Jirapech-Umpai2005] Feature selection and classification for microarray data analysis: Evolutionary methods for identifying predictive genes.BMC Bioinformatics 2005, 6:148, doi:10.1186/1471-2105-6-148
    
    [Junichi Fukumoto, Tsuneaki Kato, Fumito Masui 2004] An Evaluation of Question Answering Challenge (QAC-1) at the NTCIR Workshop 3. ACM SIGIR Forum Vol. 38, No. 1 June 2004.
    
    [Koji Eguchi 04] Koji Eguchi,Keizo Oyama,Emi Ishida, Noriko Kando,Kazuko Kuriyama.An Evaluation of the Web Retrieval Task at the Third NTCIR Workshop. ACM SIGIR Forum Vol. 38 No. 1 June 2004
    
    [Christopher M. Stokoe 2005] Christopher M. Stokoe. Automated Word Sense Disambiguation for Web Information Retrieval. http://www.cet.sunderland.ac.uk/-csOcst/download/thesis.pdf ACM SIGIR Forum Vol. 39 No. 1 June 2005
    
    [YIN Zhong-hang 2002 ]YIN Zhong-hang, WANG Yong-cheng, CAI Wei, HAN Ke-song .Extracting Subject from Internet News by String Match. 1000-9825/2002/13(02)0159-09,2002 Journal of Software, Vol.13, No.2
    
    [Robert Gaizauskas 04] Robert Gaizauskas, Mark Hepple and Mark Greenwood. Information Retrieval for Question Answering a SIGIR 2004 Workshop
    
    [Michael Chau 2005] Michael Chau.Searching and Mining the Web for Personalized and Specialized Information. ACM SIGIR Forum Vol. 39 No. 1 June 2005. http://www.business.hku.hk/-mchau/
    
    [David D. Lewis 2001] David D. Lewis,Fabrizio Sebastiani Report on the Workshop on Operational Text Classifcation Systems (OTC-01). http://www.DavidDLewis.com/events/otc2001
    
    [Yang 1999] Y.Yang. An evaluation of statistical approaches to text categorization. Journal of Information Retrieval, vol.1, nos. 1/2, pages 67-88,1999
    
    [Chakra 1997] S.Chakrabarti, B.E.Dom, R.Agrawal and P.Raghavan. Using taxonomy discriminants, and signatures for navigating in text database.In Proc.23rd International Conference on Very Large Data Bases(VLDB'97),pages 446-455,Athens, GR, 1997
    
    [Han 2001] J.Han and M.Kamber. Data Mining Concepts and Techniques, Beijing, China,Machine Industry Publishing House, 2001.
    
    [Lewis 1994] D.Lewis and W.Gale. A Comparison of Two Learning Algorithms Categorization. In Proceedings of Symposium on Document Analysis and Information (SDAIR'94), 1994
    
    [Lewis 1998] Lewis. Naive (Bayes) at forty: The independence assumption in information retrieval. In Machine Learning:ECML-98,the 10th European Conference on Machine Learning, pages 4-15,1998
    
    [Steve Lawrence, C. Lee Giles 1998] Searching the World Wide Web. Science,1998, Vol.280, No.3, 98-100
    
    [Steve Lawrence, C. Lee Giles 1999] Accessibility of information on the Web.Nature, 1999, Vol.400, No.6740, 107-109
    
    [Steve Lawrence 2001] Online or Invisible Nature, 2001, Vol. 411, No. 6837,521-523
    
    [Sergey Brin and Lawrence Page 98] The Anatomy of a Large-Scale Hypertextual Web Search Engine. Computer Networks and ISDN Systems,1998, Vol.30, No. 7, 107-117
    
    [Belkin N J 1982] Anomalous State of Knowledge as a Basis for Information Retrieval. Canadian Journal of Documentation. 1982 , Vol.38, No.2, 61-62
    [Hoenkamp,E.C.M 1998]Detecting an Anomalous State of Knowledge for Proactive Information Filtering.Proceedings of the 20th Annual Conference of the Cognitive Science Society,1998,12-27
    [G Salton,A Wong,C Yang 1995]A Vector Space Model for Automatic Indexing.Communications of the ACM,1995,Vol.18,No.11,613-620
    [G.Salton,1971]The Smart Retrieval System-Experiments in Automatic Document Processing.Prentice Hall Inc.,Englewood Cliffs,NJ,1971
    [Callan,J.P.,Croft,W.,Harding,S.1992]The Inquery Retrieval System.In Proceedings of the Third International Conference on Database and Expert System Applications,Springer-Verlag,1992,78-82
    [Y.Ogawa,T.Morita,K.Kobayashi.1991]A Fuzzy Document Retrieval System Using the Keyword Connection Matrix and a Learning Method.Fuzzy Sets and Systems,1991,Vol.39,163-179
    [Deerwester S.,Dumais S.T.,Furnas G.W.,Landaure T.K.,Harshman,R.1990]Indexing by Latent Semantics Analysis,Journal of the American Society for Information Science,1990,Vol.41,No.6,391-407
    [Landaues T.K.,Foltz P.W.,Laham D.1998]An Introduction to Latent Semantic Analysis.Discourse Processes 25,1998,259-284
    [Dumais S.,Furnas G.,Landauer T.,Scott D.,et al.1988]Using Latent Semantic Analysis to Improve Access to Textual Information.Proceedings of Computer Human Interaction,1988.P281-285
    [Landauer,T.K.,Dumais,S.T.1997]A Solution to Plato's Problem:The Latent Semantic Analysis Theory of the Acquisition,Induction,and Representation of Knowledge.Psychological Review,1997,Vol.104,211-240
    [K Kira,L A Rendell 1992]The Feature Selection Problem:Traditional Methodsanda New Algorithm[A].Proc of 9th National Conf on AI[C]1992.129-134
    [G H John,R Kohavi,K Pfleger 1994]Irrelevant Features and the Subset Selection Problem[A].Proc of the 11th Int.1 Conf on Machine Learning[C].1994.121-129
    [D Koller,M Sahami.Toward 1996]Optimal Feature Selection[A].Proc of Int.1 Conf on Machine Learning[C].1996.284-292.
    [ManoranjanDash,HuanLiu 1997]Feature Selection for Classification[l].Intelligent Data Analysis,1997,1(3):13121561
    [Reinhold Huber,LucianoVDutra 1998]Feature Selection for ERS21/2 In SAR Classification:High Dimensionality Case[A].Procoflnt.1 Geoscience and Remote Sensing Symp Proceedings 1 Vol3[C]1998:16052-16071
    [YYamagata,HOguma 1997]Bayesian Feature Selection for Classifying Multi Temporal SAR and TM Data[A]Procof Int.1 Geoscience and Remote Sensing Sympl Vol2[C]1997:9782-9801
    [ALBlum,PLangley 1997]Selection of Relevant Feature and Examples in Machine Learning[J]:Artificial Intelligence,1997,97:24522711
    [MScherf,WBrauer 1997]Feature Selection by Means of a Feature Weighting Approach[Z]:Technical University Munchen,1997
    [BChakraborty 2002]Genetic Algorithm with Fuzzy Fitness Function for Feature Selection[A]:Proc of the 2002 IEEE Int.1 Symp on Industrial Electronics Vol1[C]:2002,315-319
    [SBSerpico,LBruzzone 2001]A New Search Algorithm for Feature Selection in Hyper Spectral Remote Sensing Images[J].IEEE Trans on Geoscience and Remote Sensing,2001,39(7):1360-1367
    [Yiming Yang 1999]An evaluation of statistical approaches to text categorization[J].In Journal of Information Retrieval,1999,1(1-2):67-68
    [Baker,J.E.1987]Reducing Bias and Inefficiency in the Selection Algorithm,In Proc.ICGA 2.,1987,14-21
    [Baker,J.E1987]Adaptive Selection Methods for Genetic Algorithms,In Proceedings of the Second International Conference on Genetic Algorithms,1987,100-111
    [Michalewicz,Z 1992]Genetic Algorithms + Data Structure = Evolution Programs.,Springer-Verlag,Berlin,1992
    [Pelikan,M.,Goldberg,D.E.,and Cantu-Paz,E 2000.]Hierarchical Problem Solvingby the Bayesian Optimization Algorithm,IlliGAL Report No.2000:002.Urbana,IL:University of Illinois at Urbana-Champaign,Illinois Genetic Algorithms Laboratory,2000
    [Xiang Sean Zhou,Ira Cohen,Qi Tian,Thomas S.Huang]Feature Extraction and Selection for Image Retrieval.Beckman Institute for Advanced Science and Technology University of Illinois at Urbana Champaign Urbana,IL 61801.
    [Tarek Helmy,Tsunenori Mine,Makoto Amamiya 2000]Adaptive Exploiting User Profile and Interpretation Policy for Searching and Browsing the Web on KODAMA System Graduate School of Information Science and Electrical Engineering,Kyushu University.2000,IEEE.
    [Zacharis Z.Nick and PanayiotopoulosThemis]Web Search Using a Search Genetic Algorithm.IEEE INTERNET COMPUTING.
    [Weiguo Fana,Michael D.Gordon,Praveen Pathak 2003]A generic ranking function discovery framework by genetic programming for information retrieval.Information Processing and Management xxx(2003) xxx-xxx.
    [Yossi Borenstein,Riccardo Poli 2005]Information Landscapes and Problem Hardness.2005ACM 1-59593-010-8/05/0006
    [Yong-Hyuk Kim,Byung-Ro Moon 2005]New Topologies for Genetic Search Space.2005 ACM 1-59593-010-8/05/0006
    [Weiguo Fan,Michael D.Gordon,Praveen Patha 2003k]A generic ranking function discovery framework by genetic programming for information retrieval.2003 Published by Elsevier Ltd.doi:10.1016/j.ipm.2003.08.001
    [Lei YANG,Yu DAI,Bin ZHANG,Yan GAO 2005]A Genetic Algorithm Optimized New Structured Neural Network for Multistage Decision-Making Problem,0-7695-2405-2/05,2005 IEEE.
    [Jun Yan,Ning Liu,Benyu Zhang,Shuicheng Yan 2005]OCFS:Optimal Orthogonal Centroid Feature Selection for Text Categorization.SIGIR'05,August 15-19,2005,Salvador,Brazil.
    [Agrawal 1994]R.Agrawal and R.Srikant.Fast algorithms for mining association rules.In Proceedings of 1994 International Conference on Very Large Databases,pages 487-499,Santiago,Chile,September 1994.
    [袁军鹏 2006]袁军鹏,朱东华.文本挖掘技术研究进展.计算机应用研究,2006年第2期:1-4.科技论坛
    [倪现君 2006]倪现君.文本挖掘在web中的技术分析.中国科技信息,2006年第3期:23-24
    [胡佳妮 2005]胡佳妮,徐蔚然.中文文本分类中的特征选择算法研究.光通信研究,2005年第3期:44-46
    [付德宇 2006]付德宇,代成琴.一个面向文本分类的中文特征词自动抽取方法.计算机工程与 应用,2006,vol.15:0165-03
    [焦玉英 2003]焦玉英.信息检索进展.北京:科学出版社,2003.17-57,140-149
    [李国辉 2002]李国辉,汤大权,武德峰.信息组织与检索.北京:科学出版社,2002,1-24
    [梁南元 1987]梁南元.《书面汉语自动分词系统—CDWS》,中文信息学报 61(2),1987《信息处理用现代汉语分词规范(GB/T13715-92)》,中国标准出版社,1992
    [张俊盛 1992]张俊盛等.《多语料库作法之中文姓名辨识》,中文信息学报 66(3),1992
    [孙茂松 1995]孙茂松等.中文姓名的自动辨识,中文信息学报 69(2),1995
    [孙茂松 1993]孙茂松,张维杰等.英语姓名译名的自动辨识,计算语言学研究与应用,北京语言学院出版社,1993
    [尹锋 1996]尹锋,林亚平.汉语自动分词技术的现状及发展趋势.软件世界-技术专题.1996.Vol(12).80-84
    [何克抗 1991]何克抗,徐辉等书面汉语自动分词专家系统设计原理.《中文信息学报》1991,第2期,1-14页
    [揭春雨 1989]揭春雨,刘源等.论汉语自动分词方法.中文信息学报,1989,第1期,1-9
    [湛燕 2003]湛燕,陈昊,袁方,王熙照.基于中文文本分类的分词方法研究.计算机工程与应用.2003.Vol(23):87-91
    [王科 2003]王科,高常波,翟雪峰,罗万伯.汉语分词的主要技术及其应用展望.通信技术,2003,Vol(6):12-15
    [陈燕娜 2002]陈燕娜,邵志清.基于全文搜索的中文搜索引擎设计技术.计算机工程与应用.2002.38(17):196-918
    [邓志鸿,唐世渭 2002]邓志鸿,唐世渭,张铭等.Ontology研究综述.北京大学学报(自然科学版),2002,Vol.38,No.5,730-737《中国大百科全书》(光盘版),中国大百科全书出版社,2003
    [程莉 2003]程莉,卢正鼎,文坤梅,李娟.基于语义的模糊匹配探索与应用.华中科技大学学报(自然科学版).2003,Vol.31,No.2,23-25
    [周水庚 2001]周水庚,关佶红,胡运发.隐含语义索引及其在中文文本处理中的应用研究.小型微型计算机系统,2001,Vol.22,No2.239-243
    [边肇祺 2000]边肇祺,张学工.模式识别。第2版[M]北京:清华大学出版社,2000
    [吴卫华 2005]吴卫华,袁宁,周劲,王洪军.基于文本集密度的特征词选择与权重计算方法.计算机与数字工程,第33卷(2005)第3期:11-13.
    [王娜 2006]王娜,李云松.基于概念格的文本挖掘.计算机技术与发展,2006,Vol.16,No.1:0114-03
    [黄昌宁 1997]黄昌宁.中文信息处理中的分词问题.语言文字应用,1997年第1期(总第21期)创刊五周年纪念号:17-19
    [刘里 2006]刘里,何中市.基于关键词语的文本特征选择及权重计算方案.计算机工程与设计,Vol.27,No.6,Mar.2006:0934-03
    [周又红 1996]周又红.略谈矩阵奇异值分解定理.工科数学.1996.Vol.12,No3:125-126
    [孙茂松 2002]孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究.中文信息学报,2002,Vol.14No.1:1-5.
    [刘晓志 2006]刘晓志,黄厚宽,尚文倩.带专业词库的特征选择.北京交通大学学报,:1673-20291(2006)02-20097204.
    [赵世奇 2005]赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法.中文信息学报:1003-0077(2005)06-0021-07
    [兰芸 2006]兰芸,李宝林.基于协同演化遗传算法的文本特征获取方法.计算机工程与应
    用,2006,1002-8331-(2006)05-0182-03.
    
    [李宝林 2006]李宝林,兰芸,张翼英.基于动态遗传算法的用户模型进化研究.计算机工程与应用,2006,14-0200-04.
    [张葛祥 2005]张葛祥,金炜东,胡来招.基于量子遗传算法的特征选择算法.控制理论与应用,2005年10月:1000-8152(2005)05-0810-04.
    [刘丽珍 2004]刘丽珍,宋瀚涛.文本分类中的特征选取.计算机工程,2004,Vol.30,No.4:014-02
    [周茜 2004]周茜,赵明生等.中文文本分类中的特征选择研究.中文信息学报,2004,18(3):17-23
    [秦进 2003]秦进,陈笑蓉等.文本分类中的特征抽取.计算机应用,2003,23(2):45-46
    [李庆虎 2003]李庆虎,陈玉健,孙家广.一种中文分词词典新机制—双字哈希机制.中文信息学报,2003,Vol.17,No.4:1003-0077(2003)04-0013-06
    [彭佳红 2005]彭佳红,沈岳,张林峰.数据挖掘中的特征选择及其算法研究。计算机工程与设计,2005年5月Vol.26:1000-7024(2005)05-1176-03
    [陈涛 2005]陈涛,谢阳群.文本分类中的特征降维方法综述.情报学报,2005,Vol.24,16:691-695
    [李样明 2000]李样明.关于矩阵奇异值分解的注记.数学研究与评论,2000年5月,Vol.20No.2:0311-02
    [王怡 2004]王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术.计算机应用研究,100123695(2004)0820151204
    [盖杰 2004]盖杰,王怡,武港山.潜在语义分析理论及其应用。计算机应用研究,2004,Vol.22,No.3:92-96.
    [盖杰 2004]盖杰,王怡,武港山.基于潜在语义分析的信息检索.计算机工程,2004年1月,Vol.30:1000—3428(2004)02—0058—03
    [陈真勇 02]陈真勇,何永勇,褚福磊,黄靖远.基于遗传进化的最近邻聚类算法及其应用.控制与决策,2002,Vol.17No.4:0469-04.
    [Ciya Liao,Shamim Alpha,Paul Dixon]Feature Preparation in Text Categorization
    [王练 2005]王练,李云,汪血焰.高维特征集选择模型研究.重庆邮电学院学报,2005,Vol.17No.1:0113-04
    [刘贵龙 2002]刘贵龙,王慧玲,宋柔.矩阵的奇异值分解在文本分类研究中的应用.计算机工程,2002,Vol.28,No.12:1000-3428(2002)12-0017-02
    [刘勇国 2003]刘勇国,李学明.基于遗传算法的特征子集选择.计算机工程,2003,Vol.29No.6:0019-02
    [余刚 2006]余刚,裴仰军,朱征宇,陈华月.基于词汇语义计算的文本相似度研究.计算机工程与设计,2006,Vol.27 No.2:0241-04
    [彭佳红 2005]彭佳红.一种基于粗糙集的混合特征选择算法.计算机工程与科学,2005,Vol127,No.9:0057-02
    [任江涛 06]任江涛,黄焕宇,孙婧昊,印鉴.基于相关性分析及遗传算法的高维数据特征选择.计算机应用,2006,Vol.26,No.6:1403-03
    [任纪生 2006]任纪生,王作英.基于特征有序对量化表示的文本分类方法.清华大学学报(自然科学版)2006年第46卷第4期:527-529,533
    [王秀娟 2005]王秀娟,郭军,郑康锋.文本分类中一种新的特征选择方法.计算机应用,2005,Vol.25 No.3:0661-03
    [饶文碧 2006]饶文碧,柯慧燕.Web文本分类技术研究及其实现.计算机技术与发 展,2006,Vol.16 No.3:0116-03
    [肖雪 2006]肖雪,何中市.基于向量空间模型的中文文本层次分类方法研究.计算机应用,2006,Vol.26 No.5:1125-02
    [刘丽珍 04]刘丽珍,宋瀚涛.文本分类中的特征选取.计算机工程,2004,Vol.30 No1.4:0014-02
    [王娟 2005]王娟,慈林林,姚康泽.特征选择方法综述.计算机工程与科学,2005,Vol.27No.12:0068-04
    [冯长远 2005]冯长远,普杰信.文本特征选择算法的研究.计算机应用研究,2005,07-0036-03
    [申卯兴 1996]申卯兴,郑武团.矩阵的奇异值分解的应用.工科数学,1996,Vol.12,No.3:56-41
    [周宇 2006]周宇,覃征.聚类分析中特征选择的研究.计算机应用研究,1001-3695(2006)05-0055-03
    [许建潮 2005]许建潮,胡明.中文Web文本的特征获取与分类.计算机工程,2005,Vol.31,No.8:0024-02
    [黄礼平 1997]黄礼平.具有奇异值分解性质的代数.数学学报,1997,Vol.40,No.2:161-166
    [韩览山,邵贝恩 2002]韩览山,邵贝恩.KDD中的特征选择.计算机工程与应用,2002,22-0217-03
    [李明 2003]李明.遗传算法的改进及其在优化问题中的应用研究.吉林大学硕士学位论
    [张巍 2005]张巍,邹翔,吴晓.分类问题的一种可伸缩特征选择算法.计算机学报,2005,Vol.28,No.7:1223-1227
    [乔立岩 2006]乔立岩,彭喜元,马云形.基于遗传算法和支持向量机的特征子集选择方法.电子测量与仪器学报,2006,Vol.20,No.1:1-5
    [唐焕玲 2005]唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术.计算机研究与发展,2005,42(1):47-53
    [刘素华 2005]刘素华,侯惠芳,李小霞.基于遗传算法和模拟退火算法的特征选择方法.计算机工程,2005年8月,Vol.31,№ 16:1000-3428(2005)16-0157-03
    [刘明吉 2005]刘明吉.基于协同演化的文本特征获取算法.计算机工程,2005年2月,Vol.31,№ 4:1000—3428(2005)04-0085-03
    [马玉春 2005]马玉春,孙冰.基于特征选择的自适应信息过滤研究.计算机工程,2006年3月,Vol.32,№ 5:1000-3428(2006)05-0172-03
    [周明 2005]周明,孙树栋.遗传算法原理及应用.国防工业出版社.2005
    [刘刚 2005]刘刚,何麟书.双赌轮选择遗传算法.北京航空航天大学学报,2005,Vol.31,No18:100125965(2005)082093020
    [王本年 2005]王本年,陈世福,谢俊元.一种基于全局协同与局部进化的遗传算法.计算机工程,2005,Vol.31,No.19:1000—3428(2005)19—0029—03
    [恽为民 1996]恽为民,席裕庚.遗传算法的全局收敛性和计算效率分析.控制理论与应用,1996,Vol.13,No.4:455-461
    [徐宗本 1996]徐宗本,高勇.遗传算法过早收敛现象的特征分析及其预防.中国科学(E辑)1996,Vol.26,No.4:364-372
    [郭东伟 1996]郭东伟,刘大有,周春光,张仲明.遗传算法收敛性的动力学分析及其应用.计算机研究与发展,1996,Vol.39,No.2
    [汤亚玲 2006]汤亚玲,崔志明.基于遗传算法的Web行为挖掘研究.微电子学与计算机,2006年第23卷第8期:168-03
    [田东平 2006]混合遗传算法与模拟退火法.计算机工程与应用 2006.No.22:63-65
    [李平 2006]李平,吴佳英,郑金华,胡宁静.多亲遗传算法的理论分析及其应用研究.计算机工程与设计 2006年2月,Vol.27,No.4:0581-03
    [席裕庚 1996]席裕庚.柴天佑.遗传算法综述.控制理论与应用,1996,Vol.13,No.6
    [Barbara Rosario 00]Latent Semantic Indexing:An overview.INFOSYS 240 Spring 2000 Final Paper
    [王慧莉 2005]王慧莉,隋丹妮.基于潜在语义分析的文本研究.重庆大学学报(社会科学版),2005年第11卷第5期:94-97
    [胡妙娟 2006]胡妙娟,胡春,钱锋.遗传算法中选择策略的分析.计算机与数字工程,2006,Vol.36,No.3:1-4
    [李明琴 2005]李明琴,李涓子,王作英.语义分析和结构化语言模型.软件学报,2005,Vol.16,No.9:1523-1534
    [吕军 2006]吕军,博琴,李波.基于遗传算法的属性约简.微电子学与计算机,2006,Vol.23,No.7:151-154
    [梅馨 2003]梅馨,邢桂芬.文本挖掘技术综述.江苏大学学报(自然科学版),Sep.2003,Vol.24No.5:0072-05
    [郭东伟 2002]郭东伟.遗传算法运行机理的研究,吉林大学博士学位论文,2002
    [冯平 1995]冯平.评价论[M].北京:东方出版社,1995

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700