地理信息|概述——空间数据挖掘与知识发现
一、背景
大数据时代到来。数据得到了极大丰富,但是知识却极其匮乏。
简单来说:这门课就是现在产生数据的方式多了,数据量爆炸,但是数据太多不好处理,得不到关键信息,就要采用某些方法提取有用信息,数据挖掘应运而生。
这门课程将数据挖掘放在地理上,就是空间数据挖掘。这门课分两部分,数据挖掘和应用到地理上的一些算法。
二、定义
数据挖掘:从大量数据中提取或发现(挖掘)有趣模式和知识的过程。
另外一种定义是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。
众所周知,定义除了考试中回答名词解释没什么卵用,理解就好~这个定义槽点太多。
有趣:意思就是我觉得好玩就行,我有兴趣就可以,如果恰好有比较好的结果,那就是一篇paper。(众所周知,科研是有趣的)
有效的:结论还有别的适用情况。
新颖的:别人没想到/懒得做的。
潜在有用性:结论能在生活中做出一点微小的贡献。
最终可理解性:我知道你会知道我知道的。
非平凡:正在进行的数据挖掘过程是伟大的!
三、过程
过程分三步:数据准备(米),数据挖掘(巧妇),结果解释(炊/吹)。
能不能得到好的结果靠前两项,有没有paper靠吹。
课件里面一句话巨真实,看的时候笑出声。严肃的来说,科研是曲折的。(噗嗤)
数据准备过程中,数据一般用各种数据库和数据仓库进行存储与管理。
数据挖掘,用各种技术挖掘“有趣”的模式。(真心觉得不如把有趣改成有用)
(又讲了一遍定义...)
至于各种技术的思路,都非常符合正常人的想法:筛选和穷举。
筛选:选出所有的模式,过滤无趣的。
穷举:仅找有趣的模式(我认为有趣的就是有趣的,这种方法像不像“海底捞”)。
具体方法大概可以整理到下面这张图。
之后给出一些数据挖掘的工具,无非就是R语言,Python,Java的统计分析工具,在此就不叨叨了。
而关于结果解释,主要和研究者应用目的相关。(恰恰是我研究的就是有趣的,嗯,搞科研的常规心态)但不得不说确实数据挖掘在如今商业化分析中占有重要地位。
四、空间数据挖掘
最后回到专业——空间数据挖掘。
定义:是在空间数据集合中发现知识,提取感兴趣的空间模式和特征、空间数据与非空间数据之间的联系以及其它数据特点的过程。
主要研究空间数据的概率分布模式、聚类和分类特征、属性间的依赖关系以及时空自相关和互相关特征等。
简单来说:在地图上加载海量数据,提取好玩的规律。
难点:空间数据的复杂性(数据量大),空间关系(地图自带),空间自相关性(我在故我在,而有的就不能在,有的必须在)。
空间数据挖掘的主要内容
最后也是给了一些主要的空间数据挖掘方法和工具。
工具:Arcgis,GeoDA,数据挖掘的传统工具。