摘要
时空热点事件可定义为一定数量的人群在特定的时间和地点共同参与的事情.这里的人群数量反映的了事件的热度、流行度.参与的人越多,事件越热门.而特定的时间和地点则表征了热点事件的时空特征.实时的跟踪人群的活动轨迹,并获取人群的活动内容是当前大数据分析的一个重要内容.然而,如何及时准确的获取人群的位置信息、活动内容,并从中有效的提取有价值的信息,是一个研究难点. 本文研究了面向新浪微博签到数据的时空热点事件实时识别方法。通过统计新浪微博用户在同一位置、不同时间签到人数的历史数值,定义了一种基于中位数统计指标的时空热点事件的定量化判别方法。同时,针对己识别出的时空热点事件所发生区域内的微博签到数据,设计了基于密度的文本聚类方法,可以有效的去除噪声数据,并将热点事件的主题内容提取出来。最后,将热点事件的主题内容与事件发生区域相结合,以地图可视化的形式展示时空热点事件。通过实验证实了本文方法能有效的去除微博签到数据中的噪声,并准确提取出各地铁站点区域内发生的多个时空热点事件。