Scientific Reports|利用实时搜索引擎数据快速学习地震震感区域及烈度分布
你和“懂AI”之间,只差了一篇论文
很多读者给芯君后台留言,说看多了相对简单的AI科普和AI方法论,想看点有深度、有厚度、有眼界……以及重口味的专业论文。
为此,在多位AI领域的专家学者的帮助下,我们解读翻译了一组顶会论文。每一篇论文翻译校对完成,芯君和编辑部的老师们都会一起笑到崩溃,当然有的论文我们看得抱头痛哭。
同学们现在看不看得懂没关系,但芯君敢保证,你终有一天会因此爱上一个AI的新世界。
读芯术读者论文交流群,请加小编微信号:zhizhizhuji。等你。
这是读芯术解读的第150篇论文
Scientific Reports
利用实时搜索引擎数据快速学习地震震感区域及烈度分布
Rapid Learning of Earthquake Felt Area and Intensity Distribution with Real-time Search Engine Queries
百度、中国科学院计算技术研究所、中国地震局地质研究所、中国科学技术大学、美国罗格斯大学
原文
Hengshu Zhu, Ying Sun, Wenjia Zhao, Fuzhen Zhuang, Baoshan Wang, Hui Xiong, Rapid Learning of Earthquake Felt Area and Intensity Distribution with Real-time Search Engine Queries, In Nature Scientific Reports , 2020.
本文是百度联合中国科学院计算技术研究所、中国地震局地质研究所、中国科学技术大学、美国罗格斯大学发表于Scientific Reports的工作。文章提出了一种基于在线搜索引擎实时搜索数据快速估计地震震感区域及烈度分布的方法。该方法将震后每条包含“地震“关键词的搜索查询视为报告地震位置与强度的“人群传感器”,并利用机器学习模型学习出各传感器的置信度权重,从而对震感区域和烈度分布进行快速估计。通过对*超过5年的历史地震数据进行回测,该方法可以在震后5分钟内有效地绘制出大部分地震的震感区域和烈度分布图。
1.引言
地震是一种常见的自然地质灾害,每年在世界范围内造成巨大的经济损失和人员伤亡。尽管精准的短期地震预报目前难以实现,但震后对灾情信息的快速估算可以辅助*部门进行快速的决策响应,从而减轻灾害的影响。因此,在过去的数十年里,实时地震学(Real-time Seismology)的重要性在全球范围内得到了广泛认可,并取得了相当大的进展。实时地震学的研究者通常将研究重点放在为地震预警和震后宏观数据的快速收集,从而为*应急响应部门在灾后救援的恢复工作提供关键指导。
传统上,在一些具有密集地震观测台网部署的区域,可以快速、精确地检测地震动参数,并利用其估算震感区域和烈度分布,例如基于地震动参数实现的ShakeMap系统和GRSmap。然而,由于地质环境或当地政策的一些限制,建立密集的地震观测台网并非易事,往往伴随着巨大的经济和人力成本。就目前中国的情况而言,在大多数观测台站有限的地区,地震震感区域主要根据地震学家的现场调查辅以经验衰减关系模型等推理方法进行绘制。但是这种方法通常要花费数小时甚至数天的时间,不仅人力负担巨大,也无法覆盖较大范围。根据中国地震局的官方报告,绘制鲁甸6.5级地震(中国云南,2014年8月3日)的烈度图需要约四天的时间。事实上,研究人员为寻找经济有效的替代方案已做出了许多努力,比如利用GIS遥感数据或移动设备的GPS轨迹等进行烈度估计。随着互联网的发展,基于用户在线反馈的宏观地震数据能够非常便捷的被收集,这种在线反馈通常与灾害分布相关,可看作 一种“人群传感器”。美国地质调查局(USGS)开发的“Did You Feel It?”(DYFI)系统和由欧洲-地中海地震中心(EMCS)开发的LastQuake应用程序都是通过收集地震有感人群反馈的信息来绘制地震的灾害分布地图。除此之外,Twitter也被证明可以有效地反映人们在地震中的感受,并辅助地震预警系统的建设。但是由于相关地震信息网站和应用程序的普及程度非常有限,以及Twitter等社交媒体信息无法避免的数据噪声和时效性等原因,这些替代方法通常无法保证灾情估计的效率、覆盖范围和可靠性。
为此,我们提出一种全新的方法,通过挖掘搜索引擎中海量用户提交的实时查询数据来估计震感区域和烈度分布。通常当地震发生时,感受到震动的人们会迫切地想知道发生了什么,大多数情况下在线搜索引擎是获取信息的第一选择。因此通过监测包含关键词“地震”的实时搜索数据的时空分布,可以及时估计出震感区域的分布。具体而言,我们提出了一种高效、鲁棒、机器学习辅助的方法,名为基于查询的震感区域图(Q-Felt Map),其通过对搜索引擎查询数据的大规模分析实现基于用户反馈的震感分布的快速估计。该方法将每条搜索查询视为具有置信度权重的“人群传感器”,认为其可以主动报告震感的位置和程度。下图是我们提出的Q-Felt Map的示意图,其包含3个主要组件,即基于机器学习的查询筛选、基于主成分分析(PCA)的方向检测和基于密度的等震线分割。我们根据2014——2018年间发生在*的地震及震后大规模搜索引擎查询验证了Q-Felt Map的可用性和有效性。实验结果表明我们的方法可以对*大部分地震的震感区域图进行快速、有效地绘制。
2. 框架
直觉上,如果仅根据搜索查询的密度来绘制震感分布,绘制的结果将会被搜索引擎用户数量众多的地区(例如大都市)所主导;同时由于搜索意图的多样性,并非所有搜索查询都与地震的发生有关。因此必须找到一种筛选搜索查询的方法以过滤掉海量搜索数据中的噪声。我们认为每条搜索查询都带有表明其作为一个有效地震传感器的置信权重,且这个权重会受到提交时间、位置和周围人数等诸多因素的影响,例如那些地震后立即提交的、来自人口稀疏位置的查询的置信度可能更高。为了估计查询的权重,我们提出了一种机器学习方法,如下图所示。
我们将地震后提交的一条查询表示为d维特征向量并引入一种机器学习模型以学习将特征向量映射到权值的转移函数。我们假设,当相关权值估计得当时,查询数据位置信息的加权平均值(即质心)应该接近于实际震中位置。基于这个假设,我们通过最小化历史地震的估计震中与实际震中的总距离来构建损失函数,从而进行参数学习。如下图所示,通过使用权重筛选相关查询数据,查询数据的热力图(即查询数据的权重分布)从原始查询突出的人口密集的区域移动到了震中附近。
传统意义的,等震线被广泛用来描述地震的震感区域和烈度,因此在Q-Felt Map中,我们也继续采用等震线的思路描绘震感区域。我们的第一个任务是根据筛选后的查询数据确定等震线椭圆的长短轴方向,对此我们使用加权PCA算法将带权查询数据的位置投影到新的正交坐标系上,将加权PCA求得的2个特征向量用作方向向量,将其中特征值较大的方向作为长轴方向。直觉上,等震线可以通过一系列同心椭圆来表示,我们将估计的震中作为坐标原点,而特征值则用于确定椭圆扁率。
此外,我们需要分割不同程度震动区域的等震线长短半轴长度。为此我们设计了一种基于密度的分割算法,下图为Q-Felt Map中绘制等震线的示意图。尽管在Q-Felt Map中等震线划分的地区不能直接映射至传统烈度尺度(例如修正的Mercalli烈度尺度),但仍显示了用户对地表震动强度感受的分布和衰减,体现了地震烈度分布的一种全新视角。
3. 结果
为了验证方法可行性,我们从中国地震台网中心(CENC)收集了2014年6月——2018年6月在*发生的地震记录,选定了554次地震记录来训练机器学习模型,并使用标准的五折交叉验证进行模型评估。为了探究学习权重所需的查询数据量,我们以震后不同时间间隔内的查询记录作为实验数据并评估模型性能。
下图表示震后不同时间的查询数量分布与训练误差,可以发现数据集中震后3分钟内平均有超过百万级含有关键词 “地震”的查询,其数量远多于过去研究工作中使用的数据量。同时也可发现震后3分钟的训练误差和测试误差都变得相对稳定和趋同,表明更多的查询数据不会显著影响学习结果,大多数情况下震后5分钟内的查询已足够进行模型训练。
利用训练好的模型,我们计算了每个查询数据的权重并绘制了5级以上地震的Q-Felt Map。为了避免噪声影响,我们过滤掉震后10分钟内距震中300km内仅有少于10个非重复搜索查询的地震,最终保留了51次5级以上地震,过滤掉的7次地震中有6次发生在搜索引擎用户很少的*地区,另外一次林口6.4级地震是个特例(中国黑龙江,2016年1月2日),虽然该地震发生在人口众多的城镇附近,由于震源深度过深(580km)导致周围的居民没有感觉到明显的地面震动,提交的查询数量极少。
在中国,基于相关地震应急机制,CENC仅报告部分破坏性地震的官方烈度图而非震感图。尽管烈度图侧重于衡量地震造成的影响(即对不同种类建筑或自然特征的破坏程度和严重性),但仍可视为验证震感图的替代性基准。我们将14次地震的Q-Felt Map与中国地震台网中心提供的官方烈度图进行比较,如下图所示。可以观察到,除了且末5.8级地震(中国*,2016年12月20日)和阿克陶6.7级地震(中国*,2016年11月25日)外,我们的Q-Felt Map与大多地震的官方烈度图具有较高相似度,可证明Q-震感图的效果和鲁棒性。
4. 讨论
震中附近的搜索引擎用户数量在绘制Q-Felt Map时直接影响灾区内提交的搜索查询的数量。可以看出由于且末5.8级地震(中国*,2016年12月20日)和阿克陶6.7级地震(中国*,2016年11月25日)都发生在人烟稀少的地区,相关的搜索查询均提交自远离震中的城镇。在这种情况下,Q-Felt Map无法显示确切的灾情分布情况。而当震中在人口稠密的地区时情况则完全不同,例如图e所示的塔什库尔干5.5级地震(中国*,2017年5月11日)虽然仅有161条相关查询,但由于所有查询都是从非常靠近震中的塔什库尔干提交的,因此Q-Felt Map仍可捕获查询并勾画出强震地区。
有趣的是,一些地震的Q-Felt Map和官方烈度图具有较大重叠区域,却有不同的半长轴方向(例如图b、c、i、n所示),这种现象揭示了Q-Felt Map与传统地震烈度图相比的另一个特性。由于官方烈度图基于现场调查绘制,因此半长轴的方向常与灾区的地形(如断层趋势等)高度相关,而Q-Felt Map是基于“人群传感器”绘制,其形状反映了用户报告的震感分布,提供了探究地震灾害影响的另一种视角。
由于用于查询筛选的机器学习模型可以预先训练,因此绘制Q-Felt Map的计算效率很高,在一台典型的个人计算机(1.4GHz双核CPU和4GB RAM)上,利用震后5分钟内的查询数据绘制58次五级以上地震的Q-Felt Map的平均计算时间约为0.122秒,与收集查询的时间(5分钟)相比可忽略不计。
5. 方法
基于机器学习的查询筛选:
实验中所采用的数据均来自于中国地震台网中心官方发布数据,以及脱敏后的地震搜索日志数据。首先为地震后提交的每条查询抽取特征向量,然后使用回归模型学习将特征向量到查询权重的映射函数。
· 特征提取:为地震发生后5分钟内的查询共提取122个独热特征,对于一个时间发生的地震e和在位置及时间提交的查询, 抽取的特征向量为3个独热向量,,的连接。表示的提交时间,其中是指示函数,为1当且仅当属于每天的时间区间且属于时间段。我们将和划分成离散区间,,,最终维度为20。表示位置,其中是指示函数,为1当且仅当与震中距离在以内。我们将的值划分成51个离散区间,前50个为每10km为一段,最后一个表示距离大于500km。表示提交位置附近的搜索引擎用户数,其中是指示函数,为1当且仅当该位置所在区域格子的用户数量在范围内。将*划分成10km*10km的格子,计数数据中每个格子内的搜索数,将划分成51个离散区间,其中前50个以每10000条查询为一段,最后一个区间表示超过500000条查询。
· 模型实现:对于每个查询,我们使用含有两个隐藏层的神经网络估计权值,自重每个隐藏层有8个隐藏单元,最后一层输出权值。模型根据估计的权值,计算查询位置的加权平均值作为估计震中,并计算与实际震中的距离作为损失函数。设是地震后的查询集合,估计的震中坐标可表示为,。其中是的墨卡托坐标。给定N个有官方震中数据的地震,通过最小化官方震中与估计震中欧氏距离的平均值训练神经网络,即。
基于主成分分析的轴检测:
在获得地震查询的权值后,我们得到带权点集。假设Q-Felt Map以估计的震中为中心,通过对进行带权主成分分析求得特征向量分别表示Q-Felt Map上长短半轴的方向向量,同时计算Q-Felt Map的椭圆扁率为。
基于密度的等震线划分:
基本思想是按照习得的椭圆扁率及方向连续扩大边界,直到发现椭圆内的权重和发生突变,其背后的直觉是如果一个区域内部破坏程度相似,那么权重之和应稳定增加。在每次发生突变的地方,画一系列同心椭圆。具体而言,我们根据习得的半轴方向和扁率首先产生一系列同心椭圆,其中椭圆的长半轴长度为ikm,m是最大长度。然后建立一个数组,表示椭圆内的权重和。对A求二阶导数,使用二阶导数绝对值最大的几个位置作为等震线长半轴的长度。为了避免2个等震线距离太近,我们限定相邻等震线最小长半轴距离差和最小内部权值和之差。
论文链接:https://www.nature.com/articles/s41598-020-62114-8
推荐阅读专题
留言点赞发个朋友圈
我们一起分享AI学习与发展的干货
如转载,请后台留言,遵守转载规范
推荐文章阅读
长按识别二维码可添加关注
读芯君爱你