技术分享 | 大数据技术在广告和营销场景下的应用

技术分享 | 大数据技术在广告和营销场景下的应用

技术分享 | 大数据技术在广告和营销场景下的应用

10月27日,Hulu受邀在清华大学知识工程与数据管理前沿研讨会暨“计算未来”博硕论坛上做了专题讲座,内容为《大数据技术在广告和营销场景下的应用

技术分享 | 大数据技术在广告和营销场景下的应用

技术分享 | 大数据技术在广告和营销场景下的应用

技术分享 | 大数据技术在广告和营销场景下的应用

讲座首先介绍了流量获取和流量变现的背景,引出了在什么样的场景下可以基于规则做广告精准投放。

技术分享 | 大数据技术在广告和营销场景下的应用

接着,讲座循序渐进地引入了广告精准投放最简单的解决方案。通常利用MySQL创建数据表,储存信息后,即可进行查询表结构、更改表字段等操作,使用SQL SELECT语句写查询query,获取数据内容。

技术分享 | 大数据技术在广告和营销场景下的应用

然而,在实际生产环境中所需要处理的数据很复杂,最简单的MySQL数据库可能会面临如下困难:

1. 庞大的数据量:亿级的用户数量,TB级的数据量大小。

2. 复杂的数据格式:比如用户的观看历史行为等。

3. 复杂的规则条件:SQL语句难以表述太复杂的数据逻辑。

4. 性能及扩展性:每天需要根据上千甚至上万级别的规则去产生相应的用户组。

接下来,讲座里针对这几个痛点,逐一介绍了改进方案思路。

技术分享 | 大数据技术在广告和营销场景下的应用

针对复杂的数据格式,一方面,可以借助Hbase中多个版本的数据模型来记录用户的行为信息。HBase数据单元由行、列族、列限定符、值和代表值版本的时间戳组成。可根据时间戳区分值的版本。

另一方面,可以借助Protobuf来表示和解码复杂的数据格式。Protobuf是一种平台无关、语言无关、可扩展且轻便高效的序列化数据结构的协议,可以用于网络通信和数据存储。

技术分享 | 大数据技术在广告和营销场景下的应用

在规则条件方面,有些复杂的数据处理逻辑,使用SQL难以表达,可以尝试扩展语法的方案。

技术分享 | 大数据技术在广告和营销场景下的应用

在性能及扩展性方面,可以在Redis中使用批量(Batch )和管道(PipeLine)操作,一次性批量发送的多个连续的读写请求,提高处理性能。

技术分享 | 大数据技术在广告和营销场景下的应用

为了保障稳定高速的实时计算性能,Hulu自主研发了一个大规模并行处理(MPP)计算引擎Nesto,它是专门为处理复杂的嵌套式数据而设计的分布式联机分析处理(OLAP)解决方案,包括交互式查询引擎和数据处理基础设施。

OLAP是数据库之父埃德加·弗兰克·科德(Edgar Frank Codd,1923-2003)提出的。这种技术能够提供高速的检索性能,快速、灵活地进行大数据量的复杂查询处理,并且能用直观、多维度的交互呈现形式展示数据分析结果。

目前国内外互联网公司已经较为普遍地利用OLAP技术进行大数据分析处理了。具有代表性的业界产品除了Hulu Nesto,还有Amazon Redshift、Google Dremel、Oracle Database OLAP Option、Microsoft Analysis Services、Druid、Greenplum、Impala、Presto、Apache HAWQ、Apache Kylin等等。

Hulu在Nesto中应用了列式存储、code generation等优化技术以实现加速数据处理效率,适合处理嵌套结构数据格式、TB级数据量,能够实现近实时数据导入、秒级查询延迟。

此外,Nesto的部署过程简单方便,管理成本低,实用性很高。Nesto配置文件和jar包存放到HDFS后,用户运行一个提交命令,并指定启动的服务器数目、每个服务器需要的资源等,即可快速部署一套Nesto分布式集群。

技术分享 | 大数据技术在广告和营销场景下的应用

Hulu是流媒体服务平台,当用户点击打开视频时,服务器向用户计算机顺序或实时地传送视频内容数据压缩包,让用户得以随点随看。

一方面,我们需要存储和管理的内容数据和用户数据本身规模庞大,响应速度、实时性、稳定性也极为重要。另一方面,为了实现流量获取和流量变现,营销及广告环节都需要依靠大数据实现精准投放,在提高投放效率的同时改善用户体验。

正因如此,Hulu对大数据技术的研究和落地应用都投入了许多资源。不仅产出了多项专利、自主研发的大数据平台、经验丰富的工业化解决方案,也对开源代码做出过不少贡献,努力推进大数据方向的技术开放和共同进步。

技术分享 | 大数据技术在广告和营销场景下的应用

长按关注Hulu

了解公司前沿技术

技术分享 | 大数据技术在广告和营销场景下的应用