从《大数据》谈起(下)

《大数据》一书探讨了大数据时代来临的三个重要转变,分别是:

从《大数据》谈起(下)

1. 数据量不再成为限制

围绕模拟数据时代随机采样方法建立的统计学等学科的知识体系不再成为唯一可用来**“测量并整体分析”问题的唯一方式。统计学或是数学分析培养体系中,人的经验性某种意义上直接决定了是否可以提供出一个可用的模型,需要极高的逻辑、抽象和归纳素养,“人”是关键。

在模拟数据时代,数据量是瓶颈,不仅采集数据成本高,而且数据量多了也没法处理(计算成本太高或者是计算方法不允许)。而在现今,数据收集渠道之广、收集成本之低、存储成本之低,而用于处理这些海量数据的计算方法也随之出现,这便是是“机器学习+人工智能”,这两者联合决定了数据量不是问题。

正如在50年前,让人预测某个局部地区是否会出现大规模流感,这种问题无论在哪个时代都是极为重要的,可以为*决策提供足够的支持,甚至可以提供尽可能早的前期预警,从而为*疏散、药瓶调运提供足够的时间裕度。如果由你来负责这个地域流感大规模预警的工作,或许你能想到要关注几点相关的要素,如:药店感冒药销量、工厂或事业单位请病假人数等等。但是这样采集的数据是有限的,不精确的,并且这种庞大的信息收集系统是很耗费财力的,在那个年代无非是电话、传真系统,负责维这样的信息采集系统需要多少的人力物力是难以想象的,最为关键的是这类数据很多相对于流感爆发都是滞后的,所以在以前的时代这个问题基本是不可能被解决的。

Google于08年启动GFT项目(“谷歌流感趋势(Google Flu Trends)项目”),通过分析5000万条美国用户最频繁检索的搜索词条和美国疾控中心(CDC)在2003年和2008年间季节性流感传播时期的数据进行比较,期望可以得到一些用户检索词条和流感爆发之间的关系。GFT系统唯一关注的就是特定检索词条的使用频率与流感在时间和空间上传播的联系,为此Google共处理了4.5亿个不同的数学模型,最终提取出了一组45条检索词条的组合作为数学预测模型的输入数据,GFT流感趋势预测可以与CDC数据相关性高达97%,并能比CDC提前两周预报预警。

从《大数据》谈起(下)

2. 研究数据量至多,以致于对量化的精确度追求力度降低,量化追求在某些时候不如定性的趋势判断有效。

如“大数据+机器学习”在量化交易中的运用,无需精确判断某个金融产品的具体涨跌幅度,显然在某个具体的时间点涨跌的趋势这一信息的获取更为高效、也同样有价值。

3. 因果关系探索变成了相关性探索,提供了更新颖且有价值的观点。

正是所谓的“只需要知道是什么,不需要知道为什么”,这一观点的意思是相比于凡事必归根于具体的深层逻辑结构,某些时候只需要知道哪些东西可以互相影响,至于内部的逻辑反而在特定的场景下并无绝对的必要性。

以上探讨总结了大数据时代的三个重要转变,之所以只是重点展开“大数据数据量之大”这一条,是因为这条引出了后续的“大数据时代,数据采集、社会安全和公民隐私三者间的矛盾冲突”内容。

正如第一点所总结的那样,“大数据”某种意义上相当于“伊甸园内的苹果”,正因为充满未知,故而显得那么诱惑。对于个体而言,在我的观点中我是认为“大数据和机器学习是平民科学工具,而统计分析是贵族专属手段”。

在这个时代,数据渠道之众、规模之大、涵盖范围之广,机器学习等配套的大数据处理技术的开源化以及计算资源成本降低,第一次将个体和专业机构甚至*部门面对同样具体问题的决策分析能力拉到同一层面,甚至同一起跑线,这种决策能力的平民化,必然带来社会结构的变化。只要必要的数据被*职能部门公开,我们的社会必然会出现越来越多的自下而上的推动变化,而在大数据一文中,作者便举了多个案例用于佐证:

  1. 美国气象部门免费的公开气象预测数据,虽然其具体的影响无法估测,但经预估围绕公开的气象预测数据至少为美国带来数百亿美金的经济助力,如保险、应急救援等;

  2. 美国公布了对国家职能部门的预算和过往的开支数据,众多民众通过分析细末的数据细节,发现并举报可能存在的经费问题,起到了有效的监督作用,从而某种意义上,在现今社会,“数据权”是民众更为切实存在的“监督权”;

  3. 美国公布对众多煤矿企业的安全监测报告,民众通过申请调用,可以查询任一煤矿的某些安全数据,从而为民众督促资本方保护矿工安全提供了切实可靠的数据来源,为民众通过*数据、舆论压力反制资本剥削提供了切实存在的一条途径,这是美国矿工通过半个世纪无数条生命才争取到的*管控监督、数据开放,这也是为什么矿工在美国工会中的地位非常之高的另一个原因。

故而从个体角度而言,“大数据时代”对于个体的诱惑是如何从*部门得到更多的不同领域的数据。

在美国,“大数据时代”来临的概念可能比中国更深入百姓的认知,或者美国人已经从“*公开数据即信息*”中尝到了不少甜头,故而民众想要索求的数据更多。而无论是*出于自身政治需求或是企业为了逃避民众如影随同的监视,*和企业都希望自己相比于民众占有信息高地,拥有信息不对称的优势,从而可以为自身利益服务,如果*和企业真的能够权钱合作同心同力,那么显然民众肯定是处于绝对劣势的,好在美国是两党治,出卖企业的数据信息甚至某些*部门的信息便成为一份分量足够重的政治筹码,所以这种系统设计上的三权分立、政治博弈使得*、资本、民众可以成为一份稳固进化的三角关系。

“信息*”某种意义可以说是美国政治博弈的大局方向。所以如果真的要看美国的历史,那么可能其从国家开始时至20世纪初,个人财产权是其政治斗争中心,所以可以用“房子财产”作为这段时间的关键词;而黑人运动、女权运动则开启了美国的个人隐私权时代,可以用“公民个体”作为这段时间的关键词;而自1966年来,《信息*法案》颁布至今的五十年历史则可以用“数据权”作为这段时间的历史关键词。在这50年里,根据列举对美国社会带来重要影响的法案的利益代表对象:

  1. 公民有利法案:《信息*法》

  2. 资本有利法案:《数据质量法》

  3. *有利法案:《美国爱国者法案》

    ……

另一方面,数据规模变大可能带来更多的机遇和发展,甚至是更多更强力的“控制”,如同弥天大网,无处不涉,无时不在的监控,这种魅力我相信没有任何一个*会拒绝。

腾讯借助QQ账号多方面采集用户信息,从而可以生成更相关更有针对性的推荐广告(腾讯大力推动QQ账号作为互联网众多网站登陆的统一的且唯一的登陆ID,并利用此采集了互联网用户无所不包的个人信息,如购物网站、视频信息、论坛信息、新闻信息甚至兴趣社区部落等如果说身份证实我们在现实社会的唯一标识,那么现在的互联网虚拟世界中QQ账号已经大有这一特征。

百度虽有搜索账号,但是也只是百度亡羊补牢之举,百度账号貌似也只是两三年前开始强力推广,但是至今也只能局限在百度自有的体系中,如百度贴吧、百度知道等。

淘宝专注于自己的购物生活消费生态圈建设,因为涉及到用户高度机密的消费购物信息,这种高附加值的用户画像关键数据,相信阿里爸爸也不会舍得乱分享。

互联网给大多数人的错觉是虚拟、无痕迹、不可追踪且和现实高度剥离,淘宝账号带有的线上线下线索会让很多人拒绝把淘宝账号作为互联网统一ID;而腾讯天生就是做社交的,对虚拟社会的唯一标识ID具有极强敏感性,互联网涉及内容的网站你大多都能用QQ直接登录,这得力于腾讯方面的大力推广,强推QQ的统一ID属性,(当然这只是个小插曲,无关本文主题)。

这种类似拥有“上帝视角”,可以窥探每个个体更深层次的信息的能力当然是致命的诱惑,至于是不是“潘多拉魔盒”,who cares?

中国的民众不在意,因为在历史上我们就已经习惯了这种每个公民用户“身份唯一标识”的*,甚至已经习以为常,这是因为在5000年历史中,中国的百姓从来都没有作为“独立的公民个体”存在过,中国的百姓从来都是附属于权贵阶层的“高级别财富”,封侯封爵最重要的赏赐除了土地,其次便是人,这便是封建思想,而这种“严密的管制”到明朝尤甚,出现了玄武湖这样的大型、专业的全国人口管理资料库(黄册库),到现今的“户口”,都是换汤不换药,只不过是管控强弱稍有区分罢了。

美国至今都没有“身份证”这一概念,美国的社会根本没有社会唯一标识ID。《一九八四》是奥威尔世界著名的反乌托邦、反极权的政治讽刺小说,影射极致的极权统治,而无处不在的监控便是其主要特征。*要想深度挖掘用户的信息(信用、性格、反社会 etc)则必须要充分收集用户尽可能多的信息,而将用户分处不同系统中的信息集合在一起关键便是“公民唯一标识ID”,举例讲:要将一个用户的银行账户系统和其家乐福购物信息都提取出来整合在一起,然后归于此人名下;但是如果没有“身份证”这样的“唯一标识ID”充当两数据库间共用的“主键”,那么如何判断银行系统中某条信息和家乐福购物的信息是同一个人的便成为一个头疼的问题!

所以“公民唯一标识ID”某种意义上,确实有利于*管控,加强社会管理,为社会安全稳定起到作用,但另一方面也加强了*的监控力度,只要它想,它可以根据“公民唯一标识ID”立即调用某个公民的所有信息,用于充分侧写该公民的profile,进行针对性的警告甚至逮捕。这样的*不正是《一九八四》中所提到那个“记住,老大哥无时无刻不在看着你”中的“老大哥”吗?大数据时代,这便是*的诉求,追求“唯一身份标识ID”用以获取可以打开任一个体分散在各处的数据的万能钥匙。


最后,送上两段喜欢的话:

文明,就是向拥有隐私权的社会不断迈进的进程。野蛮社会的一切都是公共的,靠部落的法则来处理。文明是将一个人从一群人当中解放出来的过程。

Civilization is the progress toward a society of privacy. The savage’s whole existence is public, ruled the laws of his tribe. Civilization is the process of setting man free from men.

——艾因.兰德(1905-1982),俄裔美国哲学家文学家,1943年

争你们个人的*,便是为国家争*,争你们自己的人格,便是为国家争人格,*平等的国家不是一群奴才建造得起来的。

——胡适