用户名: 密码: 验证码:
一种主动发现地理信息服务的网络爬虫
详细信息    查看全文 | 下载全文 | 推荐本文 |
  • 作者:沈平
  • 会议时间:2014-10-11
  • 关键词:计算机网络 ; 地理信息服务 ; 网络爬虫 ; 检索性能
  • 作者单位:武汉大学测绘遥感信息工程国家重点实验室
  • 母体文献:中国地理信息科学2014学术年会论文集
  • 会议名称:中国地理信息科学2014学术年会
  • 会议地点:徐州
  • 主办单位:中国地理信息产业协会理论与方法工作委员会
  • 语种:chi
摘要
泛在网络环境下地理信息服务的搜索对于地理信息资源的集成与共享具有重要意义.网络上分布着大量的地理信息服务,但用户无法快速检索到所需的服务.目前主流的两种服务查找方式均存在不足:地理信息门户的资源时效性差,元数据不完整;通用的搜索引擎查找地理信息服务的效率低下,地理信息服务通常淹没于大量无关的网页. 本文提出了一种基于链接排序和网页相关度的地理信息服务网络爬虫。该爬虫专门针对地理信息服务的协议和接口设计主题模板,通过计算特征向量间的余弦相似度的方法分析网页与主题的相关度,过滤与主题无关的网页;并利用链接与服务关键词的匹配程度确定链接的爬行优先级,提高发现服务的效率。 本文设计并实现了上述爬虫的原型系统,以OGC WMS服务作为实验对象。其主要组件包括链接探测模块、网页相关度计算模块、WMS解析模块、页面解析模块和元数据自动注册模块。 实验表明,本文提出的爬虫在发现服务的效率和抓取准确率上均取得了良好的效果。由于OGC Web Service的其他服务的协议和接口与WMS存在很大的相似性,因此可以将该爬虫策略应用于其他OWS服务的搜索,甚至可用于其他格式的地理信息资源的检索。

© 2004-2018 中国地质图书馆版权所有 京ICP备05064691号 京公网安备11010802017129号

地址:北京市海淀区学院路29号 邮编:100083

电话:办公室:(+86 10)66554848;文献借阅、咨询服务、科技查新:66554700