地理信息|概述——空间数据挖掘与知识发现

一、背景

 

大数据时代到来。数据得到了极大丰富,但是知识却极其匮乏。

 

简单来说:这门课就是现在产生数据的方式多了,数据量爆炸,但是数据太多不好处理,得不到关键信息,就要采用某些方法提取有用信息,数据挖掘应运而生。

 

这门课程将数据挖掘放在地理上,就是空间数据挖掘。这门课分两部分,数据挖掘和应用到地理上的一些算法。

 

二、定义          

 

数据挖掘:从大量数据中提取或发现(挖掘)有趣模式和知识的过程。

另外一种定义是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。

 

众所周知,定义除了考试中回答名词解释没什么卵用,理解就好~这个定义槽点太多。

 

有趣:意思就是我觉得好玩就行,我有兴趣就可以,如果恰好有比较好的结果,那就是一篇paper。(众所周知,科研是有趣的)

有效的:结论还有别的适用情况。

新颖的:别人没想到/懒得做的。

潜在有用性:结论能在生活中做出一点微小的贡献。

最终可理解性:我知道你会知道我知道的。

非平凡:正在进行的数据挖掘过程是伟大的!

 

地理信息|概述——空间数据挖掘与知识发现

 

三、过程          

过程分三步:数据准备(米),数据挖掘(巧妇),结果解释(炊/吹)。

能不能得到好的结果靠前两项,有没有paper靠吹。

 

课件里面一句话巨真实,看的时候笑出声。严肃的来说,科研是曲折的。(噗嗤)

地理信息|概述——空间数据挖掘与知识发现

 

数据准备过程中,数据一般用各种数据库和数据仓库进行存储与管理。

 

数据挖掘,用各种技术挖掘“有趣”的模式。(真心觉得不如把有趣改成有用)

 

地理信息|概述——空间数据挖掘与知识发现

(又讲了一遍定义...)

 

至于各种技术的思路,都非常符合正常人的想法:筛选和穷举。

筛选:选出所有的模式,过滤无趣的。

穷举:仅找有趣的模式(我认为有趣的就是有趣的,这种方法像不像“海底捞”)。

 

具体方法大概可以整理到下面这张图。

 

地理信息|概述——空间数据挖掘与知识发现

 

之后给出一些数据挖掘的工具,无非就是R语言,Python,Java的统计分析工具,在此就不叨叨了。

 

而关于结果解释,主要和研究者应用目的相关。(恰恰是我研究的就是有趣的,嗯,搞科研的常规心态)但不得不说确实数据挖掘在如今商业化分析中占有重要地位。

 

地理信息|概述——空间数据挖掘与知识发现

 

四、空间数据挖掘          

 

最后回到专业——空间数据挖掘。

 

定义:是在空间数据集合中发现知识,提取感兴趣的空间模式和特征、空间数据与非空间数据之间的联系以及其它数据特点的过程。

 

主要研究空间数据的概率分布模式、聚类和分类特征、属性间的依赖关系以及时空自相关和互相关特征等。

 

简单来说:在地图上加载海量数据,提取好玩的规律。

 

难点:空间数据的复杂性(数据量大),空间关系(地图自带),空间自相关性(我在故我在,而有的就不能在,有的必须在)。

 

地理信息|概述——空间数据挖掘与知识发现

空间数据挖掘的主要内容

 

最后也是给了一些主要的空间数据挖掘方法和工具。

 

地理信息|概述——空间数据挖掘与知识发现

 

工具:Arcgis,GeoDA,数据挖掘的传统工具。