热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

一、热点事件概述
热点事件具有不可预测性,这决定了热点事件往往是一个“事后诸葛亮”的产物,一个热点事件从刚开始出现之时并没有带有成为热点的性质,当然,重大事故或者突发事件(如总统被杀、日本地震、印尼海啸、巴黎圣母院火灾)等除外,不平凡的2019年发生的一些列重大事件都先后成为国内和国际社会所关注的热点。究其本质而言,是因为这些事件本身就存在着高度传播性和敏感性,往往伴随着灾难性的后果,并且这种特性是一定的,只要发生了,就会成为焦点。别的热点则不会这个样子,过去一个非突发性事件发生了,到了后面发生了,则不一定会成为热点,因为当时的客观和主观条件因素都已经截然不同。因此,对弈常规热点而言,是无法进行提前预测的。

二、热点事件的挖掘可行性
最近,有个公司有个项目想让我提提建议,大致的任务是:能不能提前发现热点,并且做热点的演化分析。作为实验,给了我三天的全网资讯,每天大约10万篇新闻,根据标题去重后大约是每天5万左右的资讯。周末之余,对这三天的资讯进行了实验,大致技术路线:
1)、热点发现
1、对三日文本进行分词、去停用词等预处理,使用lda主题模型进行主题建模,形成领域主题模型。
2、基于领域主题模型,对文本进行稠密向量表示,设定相似度阈值,计算文本之间的相似度,并构建相似度无向图,使用single-pass聚类算法,形成文本类簇,将三日共23万文本聚类成6万余个类簇,称为热点。
3、根据热点类簇结果,对三日文本进行文本类标引。根据每日的文本,计算每个热点的热度。热度计算值为热点簇大小/当日新闻总数。
4、根据热点类簇的热度结果,进行高低值排序,确定top20为每日热点
5、根据每日top20热点,分别选择其热点类簇中心代表文章,并提取该类簇文章关键词作为热点标签。

2)、每日热点演变
1、每日热点演变:包括热度值的演变和热点标签的演变,热度值的演变可根据热点在每日的热度走势进行判定。热点标签演变可以根据每日热点的关键词进行展示。
2019年3月26日热点
热点事件发现、演化及时间线Timeline、故事线Storyline自动生成
2019年3月27日热点

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

2019年3月28日热点

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

三日热点内容演变

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

三日热点热度变化

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

3)、单一热点事件演变:
1、对得到的某一热点事件,获取其所有文本,使用lda模型进行动态主题建模。
2、使用困惑度计算主题,选择最佳主题数,并进行主题聚类,得到k个主题以及对应的主题关键词。
3、根据得到的主题模型,对热点事件的文本进行主题标引,从而获取该热点的主题分布情况。
4、单一事件热点事件演变,根据热点每日的主题分布情况进行演化展示。

埃塞尔比亚737航空事故动态主题演变

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

滴滴网约车遇害事件

热点事件发现、演化及时间线Timeline、故事线Storyline自动生成

三、热点事件的挖掘方法
四、热点事件演化分析
五、热点事件的时间线timeline及故事线Storyline生成
六、总结