物联网与大数据(三)从大数据看物联网

物联网与大数据(三)从大数据看物联网

 

关于物联网与大数据的分享,我们已经发布过两期:物联网与大数据(一)介绍了物联网与大数据的含义、背景;从物联网看大数据讨论了物联网形成大数据的主要环节。那么,到底什么是大数据,大数据真正的价值在哪里,如何利用大数据服务于企业、*或社会,这些问题的答案都不是显而易见的。在本篇文章(物联网与大数据(三)从物联网看大数据)中,我们先从理解大数据开始,再来看物联网如何促进大数据的发展与深入。

 

 

 

3.1理解大数据

 

 

作为一个信息技术术语,大数据是指用传统的计算方法难以处理的数据集,但通过一些先进的技术手段,包括采集、存储、分析、传输、检索、展示等,可以系统性地获取这些数据集中的信息,并产生价值。因此,大数据一方面指数据集,另一方面也指相应的处理手段。这一节我们先从数据集的角度来理解大数据。

 

很多文献和资料用几个V来概括大数据的特性,譬如IBM将大数据描述成5个“V”:Volume(容量大)、Velocity(高速、及时)、Variety(多样性)、Variability(可变性)和Value(价值)。也有一些资料把Variability换成Veracity(真实性)。总而言之,这些都是对数据集的描述:量足够大,能够在有效期内采集得到,有多种类型或形态,与环境相关(其含义可能随环境而变化),必须有价值。

 

从当前的大数据实践来看,有三点是关键特征:

1.数据量足够大,大到用传统计算方法难以处理。以工业界的实践来看,达到或接近1 PB(=1,024 TB =1,048,576 GB)是一个可以称之为大数据的量级。

2.数据必须在线,这也是一个必要条件,否则,数据若不能被及时访问和处理,则无法产生价值,再谈大数据就失去了意义。

3.数据必须有业务价值,或者潜在地对业务有价值。这种价值有可能是不清晰的,不直观的,而需要依据一定的前瞻性判断。

 

在进行大数据处理时,不能用抽样来替代全数据集,否则就意味着可以缩减到用常规手段来进行处理了。这反过来也意味着,大数据的价值密度往往并不高,因为必须用很高的成本来处理整个数据集,才能获得结果。如果这个结果是可预期的,只是验证一个想法,那业务价值相对有限;而如果是一个意外的结果,则很难衡量其业务价值。但有一点是肯定的,这个结果建立在全数据集处理的基础上,覆盖所有的数据来源。

 

尽管数据集的数据存在多样性,我们还是可以从技术的角度,将它们归为三种类型:结构化数据、非结构化数据、半结构化数据,如图1所示。

 

 

物联网与大数据(三)从大数据看物联网

图1 数据集的数据多样性

 

结构化数据是指符合明确定义的模式或结构(schema),并且可以用二维表格形式来存储的数据,典型的是关系型数据库中的数据表和电子表格软件中的表格。一行代表一个记录,一行中的每一个格子代表一个含义明确的值。非结构化数据是指不符合特定关系模式或结构的数据,无法用二维表格来描述。常见的非结构化数据包括文字文档、音频、视频和图片等。第三种半结构化数据,介于两者之间,它们有一定的结构性和规律性,但关系和模式又不强。典型的半结构数据是HTML文档或者JSON文件,它们都包含一些标记来描述相应数据的含义,具有一定的自描述能力,但又不像数据库表格那样逐行一致。

 

了解了大数据的特性以后,我们再通过两个例子来进一步理解大数据。

 

物联网与大数据(三)从大数据看物联网

搜索引擎

一个通用的搜索引擎需要将整个Internet上的Web页面抓取下来进行索引,以便用户可以快速地找到想要的页面。当前最主流的通用搜索引擎是Google.com、bing.com以及中国用户广泛使用的baidu.com。    

Web页面的数量,据Google在2013年时提到,已经达到30万亿(30*1012)个,存储量达到100PB,又经过最近几年发展,这一数据量已经翻倍不止(但随着移动互联网的深度渗透,这两年Web站点的数量趋向稳定,甚至开始负增长)。    

搜索引擎是一个典型的大数据应用,其数据源是Internet上的Web页面,以半结构化内容为主,也有大量的非结构化内容,像图片、文档等。搜索引擎定期爬一遍(通过分布式的爬虫服务)这些Web页面,以保持原始内容的及时性;并且,对这些页面和内容执行各种解析算法,并建立起索引。搜索引擎在提供服务时,先对用户的搜索串进行解析,然后利用已经建立的索引,根据各种维度(近200个)的评估返回结果页面。    

这些Web页面汇聚成大数据以后的价值,通过搜索引擎这个应用,发挥得淋漓尽致。从商业角度而言,它们造就了一个Google和一个百度;从社会价值角度,它们使公开的信息和知识可以快速地为任何人所用。

 

物联网与大数据(三)从大数据看物联网

电子商务

电子商务本身不是一个大数据应用,但是随着电子商务发展到相当的规模,大量关于商品和用户的信息在电子商务服务商的平台上流动起来,就自然形成了一个大数据平台。    

以阿里巴巴的淘宝天猫平台为例,据称每天产生的数据达到PB量级(2018年),这其中有卖家发布的各种商品信息、买家的浏览和下单信息,以及其他相关业务生成的数据。在电商平台的数据中,像商品、会员、订单等与业务本身强相关的数据,以结构化数据为基础,辅助以一些像图片、视频等非结构化数据,在整个业务流程中起着主导作用。另外还有大量半结构化的数据,以日志的形式,记录了用户客户端(主要是移动端)的行为,以及每一个请求在后台是如何被处理的。    

这些数据的价值在电商业务中充分体现出来:数据中包含一些确定性的业务逻辑关系,比如一个订单将买家与卖家关联起来;但也有一些通过算法获得的知识并非那么显而易见,比如零售领域广为流传的“啤酒与尿不湿”关联关系;甚至将数据与业务结合起来打造各种“爆款”。    

另外特别值得一提的是,日志数据看起来只是一些行为或历史过程的记录,可用于追溯或系统优化,但是淘宝和天猫利用这些数据做到了常规零售或电商难以做到的新特性和体验:智能推荐、智能搜索,以及千人千面。

 

以上列举的搜索引擎和电子商务只是两个典型的大数据应用,在过去十多年的信息技术发展过程中,产生了许多大数据应用,遍及各行各业,譬如社交领域的微信、LinkedIn,视频领域的Youku和Youtube,还有智慧城市、智慧交通,以及保险、能源、汽车等各领域也都有不少大数据应用。

 

表1显示了从PC互联网,到移动互联网,再到物联网的角度来看数据的发展,正好也对应了大数据的发展态势。大数据与移动互联网几乎是同时期发展的,虽然两者之间并不互为因果关系,但是,移动互联网确实在PC互联网和企业应用的基础上,提供了大量丰富的真实数据。举一个例子,在互联网早期,要想获得数万或数十万个人脸来做算法调优,对于大部分研究机构非常困难,而移动互联网发展起来以后,这就不再是瓶颈了,因而人脸识别技术很快趋向实用。

 

表1 从互联网的发展来看数据的发展

物联网与大数据(三)从大数据看物联网

当前正处于物联网发展的早期,随着大量物联网设备进入到实践场景中,预期未来又会有一批大数据应用诞生,涉及到消费物联网、智慧城市、工业互联网等各个产业。然而,这个过程并非一蹴而就,需要让物联网设备的数据有机地汇聚起来,并且有足够的业务支撑来推动这一进展。

 

3.2数据模型

 

 

上一节我们关心的是数据量、来源,以及数据的应用价值,这一节我们从数据的内在结构来看一下大数据与物联网的结合。首先,物联网只是大数据的一个来源,大数据的另两个重要来源是各种信息系统和移动互联网。信息系统包含大量的业务数据,而移动互联网包含了大量与用户行为和习惯相关的数据,这些数据在实践中已经被充分运用到业务中了。

 

其次,物联网的本质是深刻的数字化,将物理世界进行数字化,形成数字空间中的各种量。在有关物联网产业的各种架构版本中,都把物联网设备定义为感知层,通过各种传感器技术来感知物理世界;在感知层以上是网络层,将这些感知设备接入到网络中;再往上是应用层,基本上囊括了物联网的各个应用行业或领域。在网络层与应用层之间有可能还存在一个平台层,包含一些共性的能力,比如设备管理、连接管理,以及服务平台(或称为使能平台)。

 

从数据的角度来看,物联网设备产生的数据被汇聚到各个行业应用中,比如,电表的数据可能在城市电力系统或企业能源系统中、智慧路灯杆的数据在城市运营系统中、工业设备的产量数据在企业管理系统中。这些物联网数据都从不同的维度去提升现有的业务系统,然而,当这些物联网数据足够丰富时,它们可以系统化地刻画一个物理世界,在数字空间中描述出一个对等体,比如数字城市、数字工厂等。这正是数字孪生(digital twin)的概念。

 

数字孪生起源于大型复杂工业设备的健康维护和保障,通过在数字空间中构建起物理实体的模型,再通过各种传感器,让两者保持状态同步,从而有可能利用信息技术的手段来预测物理实体的未来表现,帮助做出决策以更好地发挥物理实体的效用。数字孪生具有思想指引性,被各个领域所广泛采用。图2是针对城区和工厂的两个数字孪生场景的示意图。

 

物联网与大数据(三)从大数据看物联网

图2 数字孪生场景示意图

 

物联网是数字孪生发展必需的一项基础技术,通过物联网设备将物理实体与数字对等体保持状态同步,这其中关键的一点是,如何为物理实体建立一个数据模型。物联网设备只是一个保持两者同步的手段,数字孪生的要点是,将物联网设备获得的数据与数字对等体的运行结合起来,从而通过信息技术更好地指导物理实体的运行。特别值得一提的是,数字孪生是跨越长生命周期的,即数字对等体和物理实体在很长的生命周期中相伴相生,并非只建立一个静态的数字对等体。下面从智慧城市和智慧工厂两个业务场景来看一看数字孪生应用:

物联网与大数据(三)从大数据看物联网

智慧城市

城市作为物理实体,既是一个物理存在,也是一个运营机构;而在数字空间中的城市,既要能够将物理空间模型建立起来,包括城市中的人和物,又要将城市中的事情和运行规则等描述出来。数字孪生城市是智慧城市的一个终极目标,当前很多城市已经从不同维度在往这个方向努力,例如,城市大脑在一些管理部门(比如交通、安防等)的应用,最多跑一次(让数据多跑路)等。数字孪生城市的核心在于城市数据模型,打通数据孤岛,这是城市大数据的底层基础。

物联网与大数据(三)从大数据看物联网

智慧工厂

工厂作为物理实体,其复杂度比城市小,但也足够复杂到需要大数据技术来支撑其数字化运行。数字孪生是一个超越工业4.0要求的做法。对于现代的工厂,甚至可以先建立数字化的工厂,仿真运行一段时间以后,再建立物理实体工厂。这样从一开始就保持两者同步,并且在物理工厂的全生命周期中得到数字孪生工厂的指导。数字孪生工厂的数据模型包括工厂的物理建筑模型、生产设备的数字模型,以及工厂的生产和管理模型。而人在工厂运行过程中的作用甚至不如信息系统更重要。 

 

要完全呈现数字孪生的效果在有些情况下并不一定切实可行,但在很多业务场景中可以参照数字孪生的思想,建立起基本的数据模型,然后可以用来对物理实体的运行进行评估,或者指导物理实体运行得更好,这种做法往往很有现实意义。

 

一个典型的例子是导航服务,这也是一个大数据应用,其中包含所服务区域的地图数据、POI(Point Of Interest)、路径、交通信息等基础数据。像国内主流的导航软件,就需要中国全域地图数据,其POI和路径的数量可达到数亿或更多。计算的复杂度很高,涉及从任何一个点到另一个点之间的路径计算,并且有一定的实时性要求(从用户体验角度,需要秒级返回结果);若加上实时路况信息(这本身也是计算得到的),则需要动态更新数据。

 

导航服务作为数字孪生的案例,其要点在于,它将交通相关的信息进行数字化,在数字空间中建立了一个交通网络。当有足够多的人和车通过导航软件进入到这一数字交通网络中时,它就可以反过来指导物理世界中的人和车,如何更高效地从一个地方到达另一个地方。通过数字计算,它可以预测交通状况,或者通过指导行驶路径来缓解局部区域的交通压力。

回到物联网数据模型,从物联网设备到大数据之间通常并不是一步到位的,而是经过一级或多级处理和汇聚之后才形成大数据,中间的汇聚点我们称之为小数据。换句话说,物联网设备先汇聚到小数据节点,再汇聚成大数据,如图3。小数据有相对明确的业务含义,价值显现(或价值密度高),规模小,用传统的数据技术就可以进行存储和处理。

潘爱民,公众号:指令集智能科技小数据 vs. 大数据


 

物联网与大数据(三)从大数据看物联网

 图3 物联网数据模型

 

最后,简单理一下大数据、物联网、数字孪生、数据模型之间的关系。物联网是一个重要的大数据来源,通常按小数据模型来汇聚成大数据,物联网也是数字孪生发展的基础技术;大数据是数字孪生的另一项基础技术。数据模型是数字孪生的核心,也是大数据技术发挥作用必不可少的一个要素。