用户名: 密码: 验证码:
基于通用词与术语部件的专利术语抽取
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Patent Term Extraction Based on Generic Words and Term Components
  • 作者:俞琰 ; 赵乃瑄
  • 英文作者:Yu Yan;Zhao Naixuan;Information Service Department, Nanjing Tech University;Computer Science Department, Southeast University Chengxian College;
  • 关键词:专利文献分析 ; 术语抽取 ; 通用词 ; 术语部件
  • 英文关键词:patent literature analysis;;term extraction;;general word;;term component
  • 中文刊名:QBXB
  • 英文刊名:Journal of the China Society for Scientific and Technical Information
  • 机构:南京工业大学信息服务部;东南大学成贤学院计算机工程系;
  • 出版日期:2018-07-24
  • 出版单位:情报学报
  • 年:2018
  • 期:v.37
  • 基金:国家社会科学基金一般规划项目“大数据时代支持创新设计的多维度多层次专利文本挖掘研究”(17BTQ059)
  • 语种:中文;
  • 页:QBXB201807010
  • 页数:11
  • CN:07
  • ISSN:11-2257/G3
  • 分类号:94-104
摘要
针对目前专利术语抽取中不能有效地过滤一些高频非术语词串和无法正确抽取低频术语的问题,本文提出基于通用词与术语部件的专利术语抽取方法。该方法首先使用通用词作为切分符选取候选术语;再利用与候选术语有相同术语部件的相似候选术语信息,评估候选术语成为术语的可能性。实验结果表明,与传统的方法相比,提出的方法能够有效地提高专利术语抽取的准确度。
        Aiming at the problems that some high-frequency non-term strings cannot be effectively filtered and that low-frequency terms cannot be correctly extracted in patent term extraction, this paper proposes a patent term extraction method based on generic words and term components. The proposed method first takes advantage of generic words to select candidate terms. Then, candidate terms with the same term component as the target candidate term are used to evaluate the target candidate term. Experimental results show that the proposed method can effectively improve the accuracy of patent term extraction, when compared with the traditional methods.
引文
[1]Frantzi K,Ananiadou S,Mima H.Automatic recognition of multi-word terms:the C-value/NC-value,method[J].International Journal on Digital Libraries,2000,3(2):115-130.
    [2]周浪,史树敏,冯冲,等.基于多策略融合的中文术语抽取方法[J].情报学报,2010,29(3):460-467.
    [3]Mandal A,Ghosh K,Pal A,et al.Automatic catchphrase identification from legal court case documents[C]//Proceedings of the2017 ACM on Conference on Internation and Knowledge Management.New York:ACM Press,2017:2187-2190.
    [4]徐川,施水才,房祥,等.中文专利文献术语抽取[J].计算机工程与设计,2013,34(6):2175-2179.
    [5]张杰,张海超,翟东升.面向中文专利权利要求书的分词方法研究[J].现代图书情报技术,2014,30(9):91-98.
    [6]杨双龙,吕学强,李卓,等.中文专利文献术语自动识别研究[J].中文信息学报,2016,30(3):111-117.
    [7]曾镇,吕学强,李卓.一种面向专利摘要的领域术语抽取方法[J].计算机应用与软件,2016,33(3):48-51.
    [8]张桂平,刘东生,尹宝生,等.面向专利文献的中文分词技术的研究[J].中文信息学报,2010,24(3):112-116.
    [9]周绍钧,吕学强,李卓,等.基于多策略融合的专利术语自动抽取[J].计算机应用与软件,2015(2):28-32.
    [10]丁杰,吕学强,刘克会.基于边界标记集的专利文献术语抽取方法[J].计算机工程与科学,2015,37(8):1591-1598.
    [11]侯婷,吕学强,李卓.专利术语抽取的层次过滤方法[J].现代图书情报技术,2015,31(1):24-30.
    [12]Vivaldi J,Rodríguez H.Evaluation of terms and term extraction systems:a practical approach[J].Terminology,2007,13(2):225-248.
    [13]韩红旗,朱东华,汪雪锋.专利技术术语的抽取方法[J].情报学报,2011,30(12):1280-1285.
    [14]韩红旗,安小米.C-value值和unithood指标结合的中文科技术语抽取[J].图书情报工作,2012,56(19):85-89.
    [15]Spasi?I,Greenwood M,Preece A,et al.Flexi Term:a flexible term recognition method[J].Journal of Biomedical Semantics,2013,4(1):1-15.
    [16]Maynard D,Ananiadou S.Identifying terms by their family and friends[C]//Proceeding of the 18th Conference on Computational Linguistics.Stroudsburg:Association for Computational Linguistics,2000:530-536.
    [17]李超,王会珍,朱慕华,等.基于领域类别信息C-value的多词串自动抽取[J].中文信息学报,2010,24(1):94-99.
    [18]刘里,刘小明.基于分隔符和上下文术语的领域现象术语抽取[J].华南理工大学学报(自然科学版),2011,39(7):146-149.
    [19]胡阿沛,张静,刘俊丽.基于改进C-value方法的中文术语抽取[J].现代图书情报技术,2013,29(2):24-29.
    [20]林自芳,蒋秀凤.基于词内部模式的新词识别[J].计算机与现代化,2010(11):162-164.
    [21]刘剑,唐慧丰,刘伍颖.一种基于统计技术的中文术语抽取方法[J].中国科技术语,2014,16(5):10-14.
    [22]王馨,王煜,王亮.基于新词发现的网络新闻热点排名[J].图书情报工作,2015,59(6):68-74.
    [23]Pecina P,Schlesinger P.Combining association measures for collocation extraction[C]//Proceedings of the COLING/ACL on Main Conference Poster Sessions.Stroudsburg:Association for Computational Linguistics,2006:651-658.
    [24]杜丽萍,李晓戈,于根,等.基于互信息改进算法的新词发现对中文分词系统改进[J].北京大学学报(自然科学版),2016,52(1):35-40.
    [25]Zhang W,Yoshida T,Tang X,et al.Improving effectiveness of mutual information for substantival multiword expression extraction[J].Expert Systems with Applications,2009,36(8):10919-10930.
    [26]木合亚提·尼亚孜别克,古力沙吾利·塔里甫.哈萨克语IT领域术语识别研究与实现[J].中文信息学报,2016,3(3):68-73.
    [27]Asahara M,Matsumoto Y.Training multi-classifiers for Chinese unknown word detection[J].Journal of Chinese Language and Computing,2005,15(1):1-12.
    [28]岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报(自然科学版),2013,49(1):159-164.
    [29]李丽双,党延忠,张婧,等.基于条件随机场的汽车领域术语抽取[J].大连理工大学学报,2013,53(2):267-272.
    [30]孙晓,孙重远,任福继,等.基于深层结构模型的新词发现与情感倾向判定[J].计算机科学,2015,42(9):208-213.
    [31]冯艳红,于红,孙庚,等.基于词向量和条件随机场的领域术语识别方法[J].计算机应用,2016,36(11):3146-3151.
    [32]王密平,王昊,邓三鸿,等.基于CRFs的冶金领域中文专利术语抽取研究[J].现代图书情报技术,2016,32(6):28-36.
    [33]张华平,商建云.面向社会媒体的开放领域新词发现[J].中文信息学报,2017,31(3):55-61.
    [34]王昊,王密平,苏新宁.面向本体学习的中文专利术语抽取研究[J].情报学报,2016,35(6):573-585.
    [35]Li L,Dang Y,Zhang J,et al.Domain term extraction based on conditional random fields combined with active learning strategy[J].North American Review,2012,174(544):368-375.
    [36]da Silva Conrado M,Pardo T A S,Rezende S O.A machine learning approach to automatic term extraction using a rich feature set[C]//Proceedings of the NAACL HLT 2013 Student Research Workshop.Stroudsburg:Association for Computational Linguistics,2013:16-23.
    [37]吴云芳,穗志方,邱利坤,等.信息科学与技术领域术语部件描述[J].语言文字应用,2003(4):34-39.
    [38]何燕,穗志方,段慧明,等.一种结合术语部件库的术语提取方法[J].计算机工程与应用,2006,42(33):4-7.
    [39]汤青,吕学强,李卓,等.领域本体术语抽取研究[J].现代图书情报技术,2014,30(1):43-50.
    [40]夭荣朋,许国艳,宋健.基于改进互信息和邻接熵的微博新词发现方法[J].计算机应用,2016,36(10):2772-2776.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700