专访李亚锋:“大数据+”趋势下的电信实践之路
9月10日,Shanghai Apache Spark Meetup聚会在上海通茂大酒店成功举行。本次活动邀请到运营商和高校讲师来分享经验,主题覆盖了从研发到应用的各种不同视角,给大家带来耳目一新的感觉。
Spark是UC Berkeley AMP lab开源的通用并行计算框架,凭借先进的设计理念已经成为社区的热门项目。从关注的众多用户来说,影响可见一斑。活动开场,中国电信集团大数据研发团队负责人、大数据应用架构专家李亚锋做主题发言,我们也有幸邀请到他进行本次专访。
中国电信集团大数据研发团队负责人、大数据应用架构专家 李亚锋
嘉宾介绍
李亚锋,中国电信集团大数据研发团队负责人、大数据应用架构专家。02年毕业后一直从事IT互联网领域,涉及网络会议、IPTV、安全网关、游戏架构、搜索引擎、推荐引擎等,主要负责后台架构、底层开发及团队管理工作。
2012年加入携程专注大数据领域,从0到1建立大数据平台及大数据团队。将大数据平台发展到500多个节点规模(包含hadoop/hbase/spark),数据达6PB,日运行job 4万以上,数据日增量50TB。运用大数据技术升级改造核心业务,产生了数亿的经济价值。
2015年9月加入中国电信,打造了一支高质量的大数据研发团队。从无到有构建了电信集团级统一大数据平台——现约800个节点,明年规划到3000多节点,数据量超过30PB,日增量100TB,日作业数超过8万个,可用性达到99.99%。实现了大数据基础开源组件自主维护和开发,完成了全集团MSS/BSS/OSS/CRM/DPI数据汇聚,为后续大数据推动电信业务升级转型打下了坚实的基础。
采访正文
****:请先介绍一下自己,以及目前的工作重点。
李亚锋:大家好。02年毕业后我一直从事IT互联网领域,涉及网络会议、IPTV、安全网关、游戏架构、搜索引擎、推荐引擎等,主要负责后台架构、底层开发及团队管理工作。2012年加入携程专注大数据领域,在携程从0到1建立大数据平台及大数据团队。2015年9月加入中国电信,负责中国电信集团大数据研发,并且见证这个团队还有整个大数据平台一步步建立起来逐渐发展成熟。
目前的工作重点主要有两方面:一是大数据团队建设。目前团队整体已经有60人左右的规模,麻雀虽小但五脏俱全,包括:
- 数据基础服务,即Hadoop、Spark、Hbase、Hive等基础组件的运维、开发和优化;
- 数据开放平台,更好地实现开发落地;
- 数据仓库,利用集团层面统一的数据仓库,来解决数据不一致、口径不一致、模型不一致以及数据质量等问题;
- 偏向算法研究的数据挖掘,负责核心应用开发,如会上分享的《电信在大数据应用上面的创新探索》,特别像防骚扰电话这种大家普遍关心的事情,具体的研发流程还在落地。
在团队建设上,现在还同时兼任项目管理,后续会安排专职的项目经理来做这方面的工作。
二是平台建设工作。这部分的工作主要是实现移动和固网数据的整合,包括CRM、计费、DPI、OIDD基站等数据,其中宽带是最大的一块,数据量大且价值高。目前这些工作都在有序进行中,我们的整体战略就是:数据汇聚——存储——计算——然后在开放平台基础上在做应用。整体来说就是平台加应用。
****:您认为一名成功的架构师应该满足哪些条件?以及回顾您的职场之路,在技术人员进行职业选择时有什么经验可以分享?
李亚锋:我个人理解,一个成功的架构师首先要有很好的技术基础,这相当于一个中心,然后在这个中心上开展两个基本点:一是业务,好的架构师需要深入理解业务,毕竟不可能脱离需求自己谈架构;二是产品,如果形容地更高大上一点就是信任,因为作为架构师会面临各种各样的协调工作,这肯定需要有一定的管理学。所以这三点都应该要满足。
关于技术人员的职业选择,最主要的肯定是兴趣,对一件事没有兴趣是很难做好的,但同时也要考虑到这件事的社会适应性。作为个人,我认为两方面都要结合才最好。
****:从2015年9月加入电信,到目前电信的大数据平台经历过哪几次大型的变化?现在的架构是怎样的?
李亚锋:架构肯定会有演进,不会一成不变。一方面互联网存储是统一的,离线式的存储分离会带来一些资源竞争;另一方面,刚开始大家使用相对成熟的Hive,MapReduce比较多,后面都逐渐引入了Spark,这对整个架构来说改变很大。我们下一步的研究方向可能在流式计算处理这块,以及各种在线、离线计算在集群上做进一步分离。还有一个就是可能会引入Docker,使资源管理更加灵活一些。
****:时下大数据技术十分火爆,但是企业的应用也需要一个过程,中国电信在市场开拓方面有什么考虑?
李亚锋:中国电信在整个大数据应用这一块有个数据中心,专门来推动市场部制定的新业务。整体的战略方向就是先对内,再对外。其实电信本身的业务体系十分庞大,因此有很多业务可以升级,智能化和个性化各种增值服务都能够为用户带来很大的价值,也帮助电信进一步开拓市场。
****:在大数据领域,您目前比较关注哪些技术?
李亚锋:我们团队虽然不是很大,但是建制还是比较完善的,因此各个方面的技术都有涉及,基本上大数据圈子中的核心技术我们都很关注。Hadoop仍然在持续关注,因为它技术性很高而且比较成熟,其次是Spark;Hbase也有使用,虽然有点老但还算是成熟的;另外我们也有涉及Storm,Kafka,还有神经网络、深度学习等,目前团队中也有试点项目正在做这个;还有数据可视化,未来肯定会深入算法可视化技术,包括报价系统、智能监控等;除此之外存储虚拟化技术,包括Docker后面也会运用到产品生产中去。
****:对于目前的大数据市场,您持怎样的态度?
李亚锋:目前整个大数据市场的热度非常之高,而且有越来越热的趋势。个人感觉,大家现在都在提“互联网+”,但实际上“互联网+”是比较虚的,什么是“互联网+”?你可以认为是一种互联网思维,或者就是把一个网站处理好,开发个APP,但我觉得这些都没有真正解决应用本身的问题,只能算是一个工具手段,对业务却没有直接推动作用。
因此,我觉得称为“大数据+”反而更有价值。为什么?随着整个社会的发展,通用服务越来越标准化,专业服务越来越个性化,这些服务看起来简单,实际上却需要大量的数据进行支持。所以我觉得人类社会的未来发展就是大数据+人工智能,大数据是金字塔的底座,尖上是人工智能,如果没有底座,这个尖也不能用,大数据必定会成为不可或缺的重要基础设施。现在大数据已经成为很多公司的基础设施,包括BAT、携程等,电信也肯定会的。这个市场非常的大,数据是就像未来工业的血液,所以说这个市场无限量。
****:您刚刚也有谈到大数据的数据方面,那可以谈谈电信集团的数据有什么显著特点吗?
李亚锋:电信的数据大概有以下几个特点:一,数据规模大;二,数据关联度较低。不同系统中存在着各种复杂的业务支线,不同业务线的数据相对来说比较完整,但数据关联度不是特别高,所以这块是需要再提升的;三,数据比较分散。运营商大多都有这种情况,因为存在两级管理机构,集团公司下划分小公司,导致不同省级间关联较少。数据一定要纵向横向相关联才有价值,这也是我们成立大数据团队的宗旨之一。
****:作为电信集团的大数据负责人,您是如何安排自己的新技术学习、团队管理、编程、生活等时间的呢?
李亚锋:虽然中国电信是一个国有企业,但我们研发中心是一个体制创新单位,一直按照互联网模式在运作转型,所以管理上给到了比较高的自由度。大数据团队相当于我一手创立起来,需要做各种事和规划好一切,所以工作压力还是比较大的。生活上一般来说业余时间就是游泳、跑步和看书三样活动,看书主要阅读一些哲学、心理学还有历史方面的书籍,技术资料在上班时间看的比较多。作为管理者还是要有一定的知识广度跟深度,不能只懂技术。技术学习上的话基本上前沿的技术都会密切关注,包括技术书籍、开源社区还有代码等,以前比较喜欢写代码,但现在时间上不允许,所以更多时候会看一些代码,其实总体还是在整体架构和方向上把握多一点,具体的编程和开发会有不同的工程师去一一落实。
****:对于电信集团的整个大数据团队来说您领导并见证了它的成长,那么作为一名管理者,您是如何定义人才的?
李亚锋:两次重建团队,在用人培养方面我还是有比较深刻的认识。“人才”其实没有权威的定义,或者说即使有明确的定义也要看怎么去履行。关于人才我的理解有几点。
首先一点,我们招聘的时候只选择最合适的人,最好的未必就是最合适的。其实所谓的好也很难界定,并不是学历高、背景好就是好,还是要以结果为导向。好的人才应该具备几个特点:第一要有热情,你对你做的事情毫无兴趣是不可能成功的;第二是要有工匠精神,也可以理解为钻研精神,愿意去自我革新;另外一点可能要求有点高,我觉得好的人才都具备一种使命感,而不仅仅是责任感。因为一个人精神层面的东西才是最强大的,真正能做到的人并不多;还有一点就是个人修养问题。此外,时代的不同和工作岗位的不同也会极大影响对他的评价。一个人不可能通过简单的一、两个纬度来标签式衡量,但现在整个社会习惯贴标签,这就很容易陷入误区。
还有就是很难界定管理人才,而这个社会却很需要高素质、有使命感的管理人才。管理最重要的是决策能力和领导力,这两点其实很难判断。作为管理者他知道什么是对的,什么是错的,并且能够引导团队往正确的方向前进,这个才是社会最缺乏的。同时,还因为思想观念、体制等因素,存在人才浪费的严重问题。
****:像您之前所说自己曾经创业过,现在是在国有企业就职,那么在这两种情况下感受有没有什么不同?还有对于现在的年轻人,有什么建议吗?
李亚锋:所谓国企、外企还是民企,这些真的都不重要,关键看团队还有领导,特别是刚毕业的学生,第一个领导对他的影响很大。所以我觉得选择一个好的团队,一个好的领导,再加一个好的方向,比其它都重要。现在这个社会,年轻人可能更多地看重名誉和薪资,也很正常,但是不应该把这些作为首要条件,这也是个得与失的辩证问题。其实到一定程度,经验很强的时候,选择余地是很大的。在未来发展中能不能成为自己希望成为的人,这点也值得现在的年轻人慎重考量。或者说我也不知道自己适合做什么,年轻其实就是一种资本,你可以先花两、三年时间去试,最先找到自己适合做什么的人一定是最容易成功的。这可以说是我工作十五六年来的一个心得。