阿里已处理超过100PB大数据 相当580亿本图书
你知道,怎么样种出更畅销的玫瑰吗?如果有人问你借钱,你是借还是不借呢?你今天看完了电影,接下来要干什么?在以前,也许你会去问有经验的人,也许你会自己纠结半天。但是,数据社会,用大数据来帮你解决。3月7日,阿里巴巴举办首个西湖品学大数据峰会,梳理阿里数据发展脉络,并联合全球顶尖数据专家,一起来探讨未来数据的各种可能性。当天,阿里集团透露,在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据,等于104857600个GB,相当于4万个西雅图中央图书馆,580亿本藏书。
大数据是什么?
——很难想象数据的丰富性上谁能比阿里更多
像皇帝的新衣一样,每个人都在谈论大数据,但却没有人能真正具象它。大数据是什么?目前,阿里集团仅淘宝和天猫两个子公司每日新增的数据量,就足以让一个人连续不断看上28年的电影。而如果将你代入成服务器,你处理的数据量则相当于每秒钟看上837集的《来自星星的你》。
大,只是大数据的一个基础。它不只是计算机语言里面的0和1,也不仅仅是你现在看到的文字,甚至你的一次眨眼,也是大数据的一部分。
这也就是说,丰富和多样,才是大数据与一般数据的区隔。自成立十多年以来,阿里巴巴已经沉淀了包括了交易、金融、SNS、地图、生活服务等多种类型的数据。而这些数据之间相互关联,会产生巨大的能量。
例如:在小微企业融资领域,由于银行无法掌握小微企业真实的经营数据,不仅导致很多企业无法拿到贷款,还因为数据类型的不足导致整个判断流程的拉长。而阿里已经通过交易、信用、SNS等多种数据,来决定是否可以发放贷款、发放多少。贷款申请人就像在ATM机上取款一样,在一提交贷款申请的时候,即时就能获贷、支用,整个流程完全在网上完成。
这是阿里大数据的一次应用,也是数据种类丰富度的一次体现。已经很难想像,在数据的多样和丰富性上,全球还有谁能比阿里更多。
大数据需要什么?
——阿里跨机房运算突破空间限制 让facebook来求教
就如你刚刚走在路上,看到了一辆车,它在你大脑里变成电信号,然后在大脑神经元中记忆下来,并且在神经网络中随时处理调用。大数据就像是这个过程,需要经过存储和处理。
在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据。这是什么概念?它相当于4万个西雅图中央图书馆,580亿本藏书。
有了书,还需要合适的管理员来整理。不过,在大数据领域,管理员就是性能稳定优越的云计算。例如,单集群规模达到5000台这一技术,对于云计算行业来说,是一个标杆性的突破。
目前,全球仅有两三家公司计算技术达到单集群规模5000台服务器,阿里位列一席。而这还不足以展现阿里的技术实力。随着数据量的继续增大,即使单集群到10000台,也依然会触碰到天花板。而阿里做到的是,跨机房运算。这也意味着,服务器突破了机房的空间限制,可以无限延展。这一技术也让占据另一席位的facebook前来求教经验。
大数据可以做什么?
——你的生活将被改变
有人说,大数据离我太远了。其实不然,几百年前哥伦布发现新大陆开启了航海时代,就是使用数据的结果。而你现在上淘宝搜索一件毛衣,可以立即为你匹配出你最想要的那件,也是数据的一次基本应用。
不过,这都是过去时了。你即将可以看到,阿里数据为你生活带来的又一次改变。在未来的数据社会里,它将阿里数据与外部更多数据串联起来,像录音笔一样还原每个数据所发生的场景,并因此提供给你最需要的东西。例如,你可以用市场交易数据和园林数据,来判断怎么种玫瑰花会更畅销;你可以通过信用数据和金融数据来看,向你借钱的人,是不是会还钱你;你还可以知道,你暗恋的那个女生,是不是也喜欢你,因为SNS。
你的生活里,将充满数据应用的结果,每个人都能享受到数据带来的便捷。
未来:DT时代 改变你的大脑思维
十年铸剑。在大数据浪潮再起时,阿里数据选择的是,“退一步”。
退一步,并不是指退步。而是说,在人人都开始为大数据感到狂热的时候,阿里已经冷静看到,大数据未来会迸发的价值以及需要为此做出的努力。
阿里巴巴董事局主席马云最近发出的一封内部邮件,提到了阿里的未来战略:以控制为出发点的IT时代正在走向激活生产力为目的的DT(data technology)数据时代。这不仅仅是技术的升级,更是思想意识的巨大变革。
这是阿里的战略,也是大数据的未来走向。阿里正在建设一个大数据环境,数据变成工程,提供的是一整套精细化的服务:
在这里,之前想使用数据却无力购买服务器和增添技术人员的中小企业,可以获得数据存储、数据处理服务,也可以构建他们自己的数据应用;在这里,线上线下所有数据都能串联起来;在这里,所有人都是数据的提供方,也是数据的使用者;在这里,数据变成一种普及,就像语言一样,成为人人可用的东西,每个人都能享受数据成果。
数据者的思维,将不再被应该怎么拿数据,应该怎么用数据所束缚;而普通人,也不会再被“今天吃什么”这样的问题所纠结。一切,都是数据化的。