清华BDIRC:已无须论证重要性的大数据

作者:赵强,清华数据科学研究院大数据基础设施研究中心副主任

Teada前言:如果说大数据和人工智能是近10年科技舞台中心的主角,应该没有多少人反对,垂直和大众媒体,*和地*策,资本,行业,大众的注意力无不为之深深吸引。

在2018年即将进入最后两个月之际,大数据基础设施研究中心(Big Data Infrustructure Research Center)赵强老师撰文,回头看看、回到本质看看、站在高空看看:科技舞台中心的大数据和人工智能,在2018年发生了什么、意味着什么?这个主角当下是否走得稳当,发展的基础是否牢固?大数据和小数据前景如何,存在什么样的哲学悖论?在接下来的2019、2020要发展什么核心环节,才能让这个主角越走越顺越走越顺,直至改变行业,照亮生活?

清华BDIRC:已无须论证重要性的大数据

 

2018年,南京、上海、深圳、珠海、北京……越来越多的城市用形形色色的全球人工智能峰会的方式加入到智力争夺战当中。而今年却可以算是人工智能的反思年,代表观点是AI就是统计学,神经网络等价图灵机;同时也可以算是AI的人文元年,代表事件是李飞飞会斯坦福创建的HAI。

人工智能在泡沫中,在风口浪尖,而反思和人文关怀的结果都指向历久弥新的数据科学。欧盟通过GDPR,区块链的狂飙突进,大数据基础设施的共识化,意味着身份、信用、隐私、安全、制度开始成为重要的变量,影响着*、科研机构和市场的博弈和决策。核心技术之外,核心数据资源的定义、采集、标注、处理、确权、流通、商品化和资产化开始进入到生产和营销环节,并逐步带来业务的场景化和数据化。

 

数据饥渴症和产业的回归

大数据是AI的饲料,今年以来,越来越多的研究机构和公司贡献公开数据集和行业数据集,论文数量、比赛成绩和数据集大小成为资本市场评判AI公司的KPI。数据更重要,还是算法更重要,在涌现出一些无法重现结果的论文之后,要求同时公开数据集、算法和源代码的呼声已逐渐成为学术界的共识。对于主流的语音、图像处理领域,静态场景或是固定数据集的精度提升已超过阈值,更高的精度只是实验室的成就;而在视频、多模态、真实环境中的数据实时处理却很难商用,陷入到先有鸡还是先有蛋的困扰之中,无法产品化就无法获取更多的数据,也无法快速迭代,促使研究者和创业者寻找更巧妙的场景,说服自己的合作伙伴能共享生产数据。对实时生产数据的大规模需求达到了饥渴的程度,无论在医疗、交通、金融,还是在别的传统行业,都是数据为王。有第一手真实数据的机构或个人,都能批量化地生产研究论文、调查报告和产品服务。大数据在学术研究和技术应用有着明显的场景化,从最容易获取数据的电子商务、社交网络和支付交易等领域扩展到更多的传统行业和垂直细分领域。

通过数据重组供应链,人工智能在其中扮演的是特定环节的工具。在这个趋势下,智慧医疗会专注于某个特定的病种,而图像识别也从人脸识别扩展到猪脸、牛脸和驴脸的识别……这意味着大家认可了通用人工智能暂时的虚妄,而热切地把已经准备好的锋利的智能之刀切入到所有可能产生数据和效益的传统中。而大数据、人工智能和云计算本身也构成了一条供应链,加上物联网和边缘计算的介入,在这个技术池中,让通信、计算和存储的区分逐步被模糊化,整个产业被重组为针对数据的采集、传输、存储和计算的融合体,自从微软提出信息高速路之后,已经到了重建数据高速路的时候。软件定义数据、数据驱动智能的主张背后是对大数据预处理、虚拟化和安全计算一系列技术的二次整合。

 

统计、概率和人性的伪悖论

小数据最初是量化自我的一种生活方式,大数据统计给出一个概率,让企业能够精准化营销,让*能够精细化管理,却不太能让个人更*地生活。

追求量身定制的智能制造以及AI比你自己更懂你自己的技术追求带来了小数据的发展,从数据量而言,小数据可以很大,从分析难度来说,小数据一点不逊于大数据。大数据追求效率,小数据追求个性化,各种各样的智能设备是采集小数据的一个常规通道,而数字孪生可以是小数据的一个极致化的应用,至于在VR/AR构建的虚拟幻境中是否能通过数字形态永生,则是个科幻话题。

而今天小数据的推动者有两类,一类是希望能用简明的规则来恢复专家系统荣光的研究者,这里小数据的含义是具有代表性的知识或知识图谱,而另一类则是智慧生活的推崇者,这里的小数据意味着更为混乱而无法结构化的大数据,设想一个人从生到死的全息数据,目前无法想像如何记录,但一个人的照片、社交网络、基因、病历和食谱、运动习惯的数据化,却已进入日常生活,并成为大数据分析中不可或缺的部分。

每个个体是构成集体的一元,缺了谁,地球都转,而对每个个体而言,自己以及身边的人和环境权重最高,这个伪悖论下的大数据和小数据是哲学之争,通过知识图谱重新崛起的规则派和继续神经网络的统计派则延续了几十年以来的起伏,共同促进着技术进步。

 

已无须论证重要性的大数据

在整个经济面临增长危机的一年中,大数据和人工智能肩负着振兴经济促进发展的重任。数据资源是内生增长的核心资源,而人工智能是数据资源产品化和服务化的关键技术,这似乎已形成社会共识。而数据认知和数据思维的培养,则是社会数字化转型的关键。

培养越来越多具有数据意识的人才,是未来技术发展和经济转型的重中之重。数字经济相对于工业自动化而言,是更依赖于人的经济形态。百年工业化进程,生产力巨大的飞跃让人类摆脱了短缺经济,能逐步追求自我价值的实现,观念的变化导致流水线上开始了劳动力的缺乏,这才是新一轮人工智能革命的最根本推动力,没有人愿意干那些折磨人的工作了!人工智能必须取代那些简单枯燥无聊的工作,跟工业革命“解放了被困于土地的农民”一样,人工智能革命将解放那些流水线上的工人。在冠冕堂皇的理由背后,其实有着冷冰冰的技术理性,劳动力短缺,用人工智能来代替短缺的劳动力,造成大规模失业。

抛开那些科幻式的担忧,切实地进行制度研究和共识探讨,是迫在眉睫的事情。而让更多的人能具备数据思维和数据认知,既能更快地摆脱工业化困境,又能提前适应必将到来的智能时代。大数据和人工智能已无须论证其重要性,而政策、教育可以影响发展的节奏。能否踏准这个节奏,对个体和企业而言,在未来几年并非一帆风顺,而是危机重重。