大数据驱动的互联网时代

2014年9月的最后一周,阿里巴巴在纽约证券交易所(NYSE:BABA)正式上市,这是历史最大规模的首次公开募股(IPO),更标志着互联网进入了一个新的时代 ,一个属于中国本土互联网企业的大数据时代。
  大数据的前世今生
  大数据或称海量数据,指的是所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理,并整理成为人类所能解读的信息。在总数据量相同的情况下,与个别分析独立的小型数据集相比,将各个小型数据集合并后进行分析,可得出许多额外的信息和数据关系性,可用来察觉商业趋势,判定研究质量,避免疾病扩散,打击犯罪或测定实时交通路况等。
  大数据的定义看起来高高在上,事实上却已经和我们的日常生活息息相关。豆瓣音乐可以通过相似用户群体的行为推断出每个用户最可能喜欢哪首歌,甚至喜欢看什么样的电影。阿迪达斯可以通过其门店销售数据的整合分析,更准确地了解不同地域文化的消费者对其产品款式的偏好,从而更智能地决定门店的库存备货策略。某婚恋网站更是正在试图通过引入一款能够识别相似脸的系统,从用户过往的选择数据中总结归纳用户喜欢何种脸型,让用户看到的异性推荐个个喜欢。淘宝网能够预测每个用户可能感兴趣的商品是什么,由此可以生成对于每一个用户的个性化推荐,这也就是大家经常能看到的淘宝网侧边栏的商品推荐。通过更精确的分类商品信息的大数据分析,淘宝网更是可以回答很多一般人难以回答的有趣问题,比如18岁的群体最喜欢什么颜色的T恤,或者南方人和北方人对于运动饮料的偏好有什么不同?
  简单的用户行为分析可能并不会产生太多的价值,而在一个极大规模上的用户行为分析,往往可以从趋势上得出非常有价值的预测,在商业决策上尤其如此。以我们都知道的农夫山泉矿泉水做一个例子,农夫山泉想要获得这样一些市场数据帮助决策:超市里怎样摆放水堆更能促进销售?什么年龄的消费者在水堆前停留更久?他们一次购买的量有多大?气温的变化让购买行为发生了哪些改变?竞争对手的新包装对销售产生了怎样的影响?这些问题看似简单,却很难做出有说服力的准确回答。
  要回答这些问题,需要收集大量的数据。来自农夫山泉的业务员每天要来到当地超市拍摄10张照片:水怎么摆放、位置有什么变化、高度如何……一天要跑15个调研地点,每天上传150张照片,产生的数据量约为10M,这似乎并不是个大数字。而农夫山泉在全国有10000个业务员,这样每天的数据量就是100G,每月为3TB。虽然大家都清晰地知道,问题实时的答案就在其中,但得出答案并不容易,这就需要大数据相关的技术做支持。
  大数据的数学方法和技术革新
  谷歌公司(Google)曾经指出:“真正重要的不是我们可以做什么,而是我们能在什么样的规模上做。”
  如果你需要每天分析100行数据,只需要有纸和笔就可以了。如果你需要每天分析100000行数据,按照现代计算机的处理能力,你也仅仅需要一台电脑,设计一个程序即可。但当需要处理的数据级别到了1000000000这个级别(TB级别),一台性能强大的服务器工作站恐怕已经难以满足你的需要了,特别是你需要实时或者接近实时的处理速度的时候。这样的需求引领出了一个计算机与数值计算领域的热点——分布式计算(Distributed Computing)。
  分布式计算,即使用一个集群的计算机通过网络连成系统,把需要进行大量计算的工程数据分区成小块,由多台计算机分别计算,在上传运算结果后,将结果统一合并得出数据结论的科学。如何将问题进行分割?如何均衡每个处理节点(即单个计算机)的工作负荷?如何高效可靠地把单个节点的结果整合成最终的结果?为了从计算机硬件和软件上解决这些问题,多种多样的计算模型和概念被设计出来。其中最有代表性的包括云计算、MapReduce(Hadoop)、虚拟化等等。而这股浪潮仅仅只能算刚刚开始,如同马云所说:我们正在从信息科技时代走向数据科技时代。
  海量数据与互联网新职业
  玩转大数据,第一件重要的事情就是获得海量的有价值的数据。而恰恰在这一点上,中国本土互联网企业有着相当的优势。中国人口众多,经济活跃,有大量的互联网用户,用户资源的丰富直接决定了用户行为数据的丰富。淘宝网有着超过3亿的注册用户,腾讯的注册用户数量早已超过10亿,这些用户数据本身无疑就是一座金矿。
  阿里数据库=40000个图书馆?
  据报道,目前在阿里数据平台事业部的服务器上,攒下了超过100PB已处理过的数据——也就是104857600GB。这相当于40000个西雅图中央图书馆,580亿本藏书。
  新一代的技术必然带动了新一代的技术人员需求。在大数据时代,“数据科学家”和“数据工程师”在硅谷已经成为最炙手可热的工作职位之一。相比传统的软件工程师,数据科学家更像是站在数学(统计学)和计算机科学之间的群体,他们的日常工作既包括了软件设计开发,又包括数据建模和统计分析,同时还要具备将数据处理范式转化为可行的软件解决方案的能力。本土互联网企业也十分重视在数据科学上的人才储备,在可预见的将来,数据科学的从业者必将大受追捧。
  (责任编辑/冷林蔚)
大数据驱动的互联网时代

avatar

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: