用户名: 密码: 验证码:
面向网络新闻的爬虫开发与热点新闻事件分析
详细信息    查看全文 | 推荐本文 |
  • 英文篇名:Online News Crawler Development and Hot News Event Analysis
  • 作者:陈思雯 ; 刘海砚
  • 英文作者:CHEN Siwen;LIU Haiyan;Institute of Geospatial Information,Information Engineering University;
  • 关键词:网络爬虫 ; 网络新闻 ; 事件分析 ; 十九大
  • 英文关键词:crawler;;online news;;evens analysis;;the 19th CPC National Congress
  • 中文刊名:测绘与空间地理信息
  • 英文刊名:Geomatics & Spatial Information Technology
  • 机构:信息工程大学地理空间信息学院;
  • 出版日期:2019-03-25
  • 出版单位:测绘与空间地理信息
  • 年:2019
  • 期:03
  • 基金:国家自然科学基金项目(41501446);; 地理信息工程国家重点实验室开放基金项目(SKLGIE2015-M-4-3)资助
  • 语种:中文;
  • 页:110-113+118
  • 页数:5
  • CN:23-1520/P
  • ISSN:1672-5867
  • 分类号:TP391.3;TP393.092
摘要
Python平台开发了网络新闻爬虫,通过实验对比常用的网页数据获取方法,本文提出一种适合新闻网页的解析方式,克服了获取动态网页时源码不完整、单一方法解析网页效率低下等弊端,满足了新闻网页抓取、解析、结构化和入库存储等需求。并将新浪新闻中心作为网络新闻数据采集的目标,分析发现新浪新闻近几年的发展情况。此外,利用词频统计等手段对十九大会议新闻进行分析,直观地反映了十九大的核心人物、关键党派、热点话题变化等重要信息。
        This paper develops a web news crawler on Python platform,and presents a web page analysis method suitable for news web pages by comparing common web data acquisition methods. The crawler overcomes the disadvantages such as incomplete source code and low efficiency of web page,meets the needs of news web page grabbing,parsing,structuring and warehousing.This paper takes Sina news center as the target of network news data collection,and analyzes the development of Sina news in recent years.In addition,using the word frequency statistics and other means to analyze the news of the 19 h congress,it intuitively reflects the important information such as the core figures,key parties and the change of hot topics.
引文
[1]齐卫颖.基于网络社会意象的舆情可视化设计研究[D].哈尔滨:哈尔滨工业大学,2013.
    [2]谢克武.大数据环境下基于Python的网络爬虫技术[J].电子制作,2017(9):44-45.
    [3]Du Y,Liu W,Lv X,et al.An improved focused crawler based on Semantic Similarity Vector Space Model[J].Applied Soft Computin,2015(36):392-407.
    [4]王桦.基于广度优先的主题爬虫的设计与实现[D].上海:复旦大学,2011.
    [5]熊小毅.基于深度网络的信息爬取研究及应用[D].成都:电子科技大学,2015.
    [6]Cho J Garcia-Molin H,Page L Efficient crawling through URL ordering[J].Computers Networks and ISDNSystems,1998,30(1-7):161-172.
    [7]张宇,宋巍,刘挺,等.基于URL主题的查询分类方法[J].计算机研究与发展,2012,49(6):1 298-1 305.
    [8]胡萍瑞,李石君.基于URL模式集的主题爬虫[J].计算机应用研究,2018(3):649-699.
    [9]郭俊枫,赵仁亮,郑娇龙.面向网页文本的地理要素变化发现[J].地理信息世界,2015,22(1):52-56.
    [10]朱文琰,郑肖雄.基于正则表达式构建学习的网页信息抽取方法[J].计算机应用与软件,2017,34(2):14-19.
    [11]任宝玉.论人民代表大会制度的运行机制及其完善[J].社会主义研究,2015(4):9-16.

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700