10年以前,阿里并没有意识到,今天的数据量,会到达一个什么样的程度。目前,阿里集团仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上837集的《来自星星的你》。
这只是阿里大数据实力的冰山一角。大数据的魅力和要求,远不止于此。
十年多样数据沉淀:交易、金融、物流、SNS、地图……
阿里数据到底有多大?想象一下天猫双11吧,这是每年一次对阿里数据的大考。在2013年11月11日,它承载的是350亿的交易额,是同时服务超过1700万人,是每分钟产生10万个包裹,是提供相当于1000个义乌商品市场那么大的商品数给你挑选,是需要同时展现3000万部爱情动作片,是支持每分钟100万人同时买单,是相当于同时由9000万个服务员帮你拿货。
当然,体量的大,只是大数据的基本。而数据种类的多样、全面、可关联,才是全球考量大数据价值所在。十余年以来,阿里沉淀了包括了交易、金融、SNS、地图、生活服务等多种类型的数据。
十年数据平台变革:从舶来品到自建“云端” facebook找上门求经验
即使阿里有号称全球最大的Oracle RAC 集群,却依然难以满足业务发展的需要。当时,阿里的数据以2~4倍的增长,而Oracle 从性能上不能做到线性增长。于是,阿里开始研发自己的大规模分布式计算系统。不过,加速阿里自建云端并且将下决心将全部数据迁移上云的,却是来自一封邮件——“云梯1要撞墙了”。(备注:云梯1是阿里在其他系统的基础上构建出的分布式计算机系统。)
这封邮件是技术保障部同学发给阿里CEO的。去年3月,技术保障部发现,按照数据增量和未来业务增长的情况,系统存储和计算能力将在3个月内达到瓶颈,数据业务将会停滞。于是,在短短4个月之内,阿里将单集群规模从1500台服务器升级到了5000台服务器,成为国内首个单集群达到5000台规模的公司。
这意味着什么?5000对于云计算同行来说,有如登山运动前的珠峰,不可逾越。在当时,就算对Google与FaceBook这样的拥有大数据并掌握云计算核心技术的公司也没有完全成熟的解决方案。也就是说,这完全是摸着石头过河,谁都没有经验。
不止如此,阿里还成功实现了跨机房集群扩展。也就是说,5000台服务器的集群可以无限延伸。在其他公司还在拼命砸钱买服务器却依然面临可能“撞墙”障碍的时候,阿里已经可以无限制扩展,提供无限制的服务了。也难怪,在成功后不久,连facebook这样全球顶级的IT公司也发来邮件,求助阿里数据团队前去分享经验。
十年数据应用创新:从自己用,到给别人用
目前,阿里集团已经有上百款数据应用产品。而在10年以前,阿里还对数据产品没有概念。严格上来说,最早出现的跟数据有关的产品,是2005淘宝推出的“淘数据”。这是一个考量各个业务线运营情况的内部产品,能够看到每天的经营数据报表。这是首次阿里对数据的需求,以产品的形式存在。
自此以后,阿里开启了数据应用之门,在金融、信贷、广告、搜索、交易、选品、活动、生活、技术服务等多个方面推出产品。
例如,阿里数据最早被业内所熟知的,是阿里金融。这款产品综合了信用记录、成交数额等结构化数据,以及用户评论等非结构化数据,加上外部搜集的用电量、银行信贷等数据,可就放贷与否、放贷额度精准决策。直接弥补了银行业在贷款风险上的盲点,几分钟之内就让贷款发出,其贷款不良率仅为0.78%。截至2014年2月底,阿里小微信贷已经累计为超过70万家小微企业解决融资需求,累计投放贷款超过1700亿元。
2012年的聚石塔,一推出就投入到双11的实战中去。它提供了数据存储、数据计算等服务,在保障交易安全,避免遭黑客攻击的同时,还提升了商家处理订单的速度,确保交易顺畅。2013年的天猫双十一,聚石塔处理了全网75%商家的订单,处理总订单量是12年双11的10倍,0漏单,覆盖活跃商家94万,其中有两家订单量过100万。
而就在去年夏天,阿里又推出一个数据平台DMP。在这个平台上,数据变成国际市场里的原油,数据的拥有者、挖掘开发者、消费者都在这里交汇。在这个平台里面,传统意义上的商家通常以数据消费者的身份出现,来购买数据结果。他们通过数据结果来帮助自己做好精准营销,提升转化率。统计显示,目前DMP数据可帮助商家提升盈利达3倍。
从其推出的产品可以看出,阿里已经从自己用数据,到给数据让别人用,再到现在的给别人搭建使用数据的平台,让所有人都可以享受数据带来的成果。
未来:所有数据的交汇 让1+1>2
有人说,数据是有钱人玩的游戏,因为需要花费大把的钱去烧服务器。这句话,也许曾经适用,现在也适用,但以后将不再适用。因为阿里自己研发了计算系统,并且在这个系统上,将真正搭建一个大数据环境。在这里,许多有数据需求的中小企业可以得到数据存储、数据处理等服务,甚至还能构建他们自己的数据应用,而无需为此购买服务器,为此增添相关的技术人员。
除此之外,未来的数据社会里,各种数据也将串联起来。阿里正在搭建开放的数据平台,一方面将自己的数据开放给更多有需要的人使用;而另一方面,更多外部数据也会涌入这个平台,与阿里体系内的金融、地图、SNS、交易等多种数据相交汇,产生出更多价值。
可以想象,不久以后的一天,你是这样度过的:早上起床,就会有信息提示你,今天阳光很好,你适合穿衣柜里从左开始数的第6件衣服;你刚吃完早餐的时候就告诉你,最近一辆车会在8:50到你家门口;你在上班路上看到有个女生的裙子很好看,打开手机淘宝的时候,就会出现那条裙子的店铺;下班之后,你想去看场电影,一进影院就会自动挑选出你会喜欢的影片而不需要你在几部片子里面纠结;电影一结束,就会有你刚好想吃的甜品店推送给你……