DT(Digital Technology)一词,翻译过来即数据科技,可以说,这并不是一个新词,但它真正引起我注意的是阿里研究院最近写的一本书《互联网+:从IT到DT》,阿里作为国内IT技术的引领者,其技术定论不可轻视。
DT时代来临:变革在悄然发生
DT时代的骨骼:大数据处理平台的衍变
在数据处理需求急剧上升的今天,是什么在支撑着数据的变现?是的,正是数据处理平台,或者换种说法:一套完整的数据处理流程。
从数据的采集、清洗、流式实时计算、数据落地,在大多数时候,这一套完整的流程过后(或许会没有流式实时计算),这才真正进入数据的价值挖掘阶段,包括了数据的离线计算,通过一系列的建模挖掘其隐含的商业价值。
当然,在大数据遍地的今天,数据的收集也好、处理也好、挖掘也好,我们想必也要加一个“大”字了。那么,在DT时代来临的今天,能够支撑这一流程得以流通的正是数据平台,或者说是大数据处理平台,它将是支撑DT时代来临的捞针术!
当然,大数据处理平台也不是一开始存在的,它是在经历过一系列的衍变之后,才形成今天我们看到的,或这或那的数据平台形式。
就在不久前,我曾在storm-分布式-IT技术群中发起了一次近千人的话题讨论(当然,实际参与讨论的人远没有这么多,很大一部分人还是喜欢静静的围观的),其核心就是当前互联网公司中大数据平台发展的现状。
当时的讨论过程很剧烈,汇聚了各个企业公司的大牛小牛、程序猿、设计狮、产品狗,总之各种“动物”都有,众说纷纭,各有各的观点看法,但总体来说就目前几种大数据平台的形态,大家还是有比较一致的看法的。
1、大数据处理平台的终极形态:深度挖掘
数据已经完美流通,包括了完整的大规模数据采集系统、数据预处理清洗系统、数据流式实时计算系统、大规模数据存储系统、大规模离线计算系统;拥有全面的数据监控调度系统,能够方便地低成本地进行数据流程监控、调度,实时掌握数据的动态变化;拥有完善符合自身业务需求的机器学习算法库,数据挖掘层面,已经进入了数据深层挖掘阶段。
其中以BAT为代表。在国内,BAT一向是技术的引领者,因此他们在数据价值挖掘这一方面,也确实做到了领先地步。
2、其次是大数据平台完善,处于数据浅层挖掘状态
同样,这种形态的企业公司,数据平台的数据已经完全打通,他们已经在开始尝试挖掘数据的潜在价值,意图达成数据的变现。
当然,或许是由于技术积累的问题,或许是人力物力的原因,他们并没有能力做深一层的探索、挖掘,但是他们却一直在努力。他们缺少是一套完善的,适合自己的,又能够方便使用的数据挖掘库。
处于这种形态的公司也不少,诸如CSDN、去哪儿、艺龙等等,他们在个性化的道路上孜孜不倦地探索着。
3、数据流通,处于数据统计分析阶段
这种形态的数据中心,大规模数据处理平台已经基本搭建,数据已经能够流通,处于大规模数据的统计分析阶段。
这种类型的公司,他们更多倾向于对数据仓库的建立,对大批量数据进行存储、统计并且分析数据的走势以及变化。所以,就Hadoop生态来说,他们可能更倾向于使用Hive之类的技术或者工具。
处于这种形态的公司是占大多数的,典型如刚组建大数据部门的短短一年时间的360,当然还有很多很多类似的公司,数不胜数。他们希望摸清楚自己到底掌握了什么样的数据,这些数据到底是怎么变化的,通过对这些数据的了解以及掌控,他们才能更好做出更合理的商业决策。