用户名: 密码: 验证码:
基于Bi-LSTM和CRF的中文网购评论中商品属性提取
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Commodity Attributes Extracting in Chinese Shopping Reviews Based on Bi-LSTM and CRF
  • 作者:张诗林
  • 英文作者:ZHANG Shi-lin;School of Automation,Hangzhou Dianzi University;
  • 关键词:双向长短时记忆神经网络 ; 条件随机场 ; 中文网购评论 ; 词性特征
  • 英文关键词:Bi-LSTM;;CRF;;Chinese shopping reviews;;POS features
  • 中文刊名:JYXH
  • 英文刊名:Computer and Modernization
  • 机构:杭州电子科技大学自动化学院;
  • 出版日期:2019-02-15
  • 出版单位:计算机与现代化
  • 年:2019
  • 期:No.282
  • 语种:中文;
  • 页:JYXH201902018
  • 页数:5
  • CN:02
  • ISSN:36-1137/TP
  • 分类号:97-101
摘要
随着电子商务系统评价体系的完善,网购评论的内容对消费者的购物起到十分重要的指导作用。但是消费者不能从大量评论中找到自己直接关心的商品属性(如:手机产品的属性"电池")以及属性相关评价(如:"电池容量很大")。相对于构建知识库和传统机器学习的方法,需要人工总结复杂的特征和规则来提取商品属性和属性相关评价。本文应用基于词嵌入融合双向长短时记忆网络(Bi-LSTM)和条件随机场(CRF)的方法并根据在评论中属性多为名词、属性评价多为形容词的特点在Bi-LSTM+CRF模型中融入词性特征,实现对评论中的商品属性以及属性评价的自动化提取,在避免总结规则的同时更具领域普适性。通过测试相机、男装、儿童安全座椅3个商品领域,得到了宏精确度为86. 74%,宏召回率为85. 89%。
        With the improvement of the evaluation system of e-commerce system,the content of online shopping reviews plays a very important role in guiding consumers' shopping. However,consumers can't find attributes and evaluations about attributes directly from a lot of reviews. Compared with constructing knowledge base and traditional machine learning methods,we need to summarize complex features and rules manually to extract attributes and attribute evaluations. This paper applies the method of Bi-directional Long Short-Term Memory( Bi-LSTM),Conditional Random Fields( CRF) and POS features to realize automatic extraction of commodity attributes and attributes evaluations in the reviews. This avoids summarizing the rules and has more domain universality. Through testing camera,menswear and child safety seat,the three commodity areas have obtained the macro precision of 86. 74% and the macro recall of 85. 89%.
引文
[1]王林,曲如杰,赵杨.基于评论信息的网购情景线索类型及其作用机制研究[J].管理评论,2015,27(4):156-166.
    [2]张亚明,赵杨,王林.基于执行意向理论的网购评论行为反应模式研究[J].软科学,2016,30(7):118-123.
    [3]刘玮楠.基于HNC理论的网购评论情感倾向性分析研究[D].大连:大连理工大学,2013.
    [4]刘海,卢慧,阮金花,等.基于“用户画像”挖掘的精准营销细分模型研究[J].丝绸,2015,52(12):37-42.
    [5]杨杰明.文本分类中文本表示模型和特征选择算法研究[D].长春:吉林大学,2013.
    [6]熊浩勇.基于SVM的中文文本分类算法研究与实现[D].武汉:武汉理工大学,2008.
    [7]林江豪,阳爱民,周咏梅,等.一种基于朴素贝叶斯的微博情感分类[J].计算机工程与科学,2012,34(9):160-165.
    [8]阮光册,夏磊.基于关联规则的文本主题深度挖掘应用研究[J].现代图书情报技术,2016(12):50-56.
    [9]李涵昱,钱力,周鹏飞.面向商品评论文本的情感分析与挖掘[J].情报科学,2017,35(1):51-55.
    [10]尹裴,王洪伟.面向产品特征的中文在线评论情感分类:以本体建模为方法[J].系统管理学报,2016,25(1):103-114.
    [11]SUNDERMEYER M,SCHLTER R,NEY H.LSTM neural networks for language modeling[C]//Interspeech.2012:194-197.
    [12]LAFFERTY J D,MCCALLUM A,PEREIRA F C N.Conditional random fields:Probabilistic models for segmenting and labeling sequence data[C]//Proceedings of the 18th International Conference on Machine Learning.2001:282-289.
    [13]HUANG Z H,XU W,YU K.Bidirectional LSTM-CRFModels for Sequence Tagging[DB/OL].(2015-08-09).https://arxiv.org/pdf/1508.01991v1.pdf.
    [14]邢彪,根绒切机多吉.基于Jieba分词搜索与SSM框架的电子商城购物系统[J].信息与电脑(理论版),2018(7):104-105.
    [15]BENGIO Y,DUCHARME R,VINCENT P,et al.A neural probabilistic language model[J].Journal of Machine Learning Research(JMLR),2003,3:1137-1155.
    [16]汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215.
    [17]MIKOLOV T,CHEN K,CORRADO G,et al.Efficient Estimation of Word Representations in Vector Space[DB/OL].(2013-09-07).https://arxiv.org/pdf/1301.3781v3.pdf.
    [18]胡新辰.基于LSTM的语义关系分类研究[D].哈尔滨:哈尔滨工业大学,2015.
    [19]GRAVES A.Long short-term memory[M]//Supervised Sequence Labelling with Recurrent Neural Networks.Springer Berlin Heidelberg,2012:37-45.
    [20]陈建廷,向阳.深度神经网络训练中梯度不稳定现象研究综述[J].软件学报,2018,29(7):2071-2091.
    [21]李航.统计学习方法[M].北京:清华大学出版社,2012.
    [22]MICHALSKI R S,BRATKO I,KUBAT M,等.机器学习与数据挖掘:方法和应用[M].朱明,等译.北京:电子工业出版社,2004.
    [23]RABINER L R.A tutorial on hidden Markov models and selected applications in speech recognition[M]//Readings in Speech Recognition.Morgan Kaufmann Publishers,1990:267-296.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700