爱奇艺在Hadoop生态中大数据平台实践

在4月10日下午举行的《Hadoop技术实战和应用》专场演讲中,来自爱奇艺技术产品中心的专家孙琦老师为我们分享了关于《爱奇艺在Hadoop生态中大数据平台架构与实践》的相关话题。

  根据孙琦老师介绍,自2014年1月以来,爱奇艺PPS已经连续2月日均覆盖、月度覆盖、月度时长和人均月度时长均排名第1。在Hadoop生态建设方面,爱奇艺目前的状况是:

  · 与2010年8月开始搭建,最初只有50台机器;

  · 目前已经具有一定规模,且在迅速扩容;

  · 多机房部署,专线互联;

  · 涵盖Apache Hadoop生态的所有主要组件;

  · 物理机集群与虚机集群共存的部署模式;

  · 公共集群和专属集群共存的运营模式。

爱奇艺在Hadoop生态中大数据平台实践

  据了解,爱奇艺Hadoop目前处理的数据量为20PB左右,日处理Job数达到了100000+,服务包括搜索、广告、推荐、日志分析、BI等等。尽管爱奇艺在应用Hadoop方面已经取得了一系列的成就,但孙琦老师表示,目前爱奇艺还没完全进入Hadoop 2.0时代。

  爱奇艺Hadoop生态图

  · 数据格式:ProtoBuf、JSON为主,统一数据定义,以便数据共享

  · 批处理以Hive作业为主

  · Storm、Spark实时计算资源托管在Mesos或Openstack虚机之上

  · 大部分HBase应用是为离线计算服务

  · 作业提交管理:入口机 + 专用提交系统

  · 系统监控:传统监控 (Nagios, Zabbix) + Metrics数据聚合

  · 成本审计:货币化度量项目组开销

爱奇艺在Hadoop生态中大数据平台实践

  最后,针对爱奇艺Hadoop生态系统,孙琦老师也进行了功能方面的回顾。包括已经跨机房在多个HBase集群之间配置;数据延迟在毫秒级;为业务组提供了跨机房数据共享的条件;几次的网络故障已经证明了该机制的可靠性。

  对于未来的计划,孙琦老师表示,未来将增加HDFS Erasure Code的支持、支持Kerberos;进入Hadoop 2.0,实现多框架对资源的共享;统一MR/Spark/Storm作业提交界面,以及深度整合Openstack、Mesos与Hadoop生态。