portant;font-size:17px !important;”>
这几年很多人都在讨论大数据,如果数据不经过处理,其实并不是有用的。例如每天跑步带个手环收集的也是数据,网上这么多网站也是数据,简称为Data,数据本身并没有什么作用,但是数据里面包含一些很重要的东西,叫做信息(Information),数据杂乱无章,只有经过了梳理和清洗,才能够称为信息。信息里面包含了很多规律,我们需要从众多信息中将规律总结出来,才能称为知识,知识才能改变命运。
portant;font-size:17px !important;”>
数据的处理分五个步骤,全部完成了才最后才会升华智慧。第一个步骤:数据的收集。首先得有数据,数据的收集有两个方式,第一个方式是拿(Pull),专业点的叫爬取或者抓取,常见的搜索引擎就是这么干的,它把网上的信息都下载到它的数据中心,然后被你搜索出来。比如你去搜索的时候,返回的是一个列表,这个列表为什么会在搜索引擎的公司里面呢,就是因为他把这个数据都爬下来了。
portant;font-size:17px !important;”>
第二个步骤是数据的传输。常见的会通过队列方式进行,数据量实在是太大了,数据必须经过处理才会有用,但是系统处理不过来,只好排排队,一条条地处理。
portant;font-size:17px !important;”>
第四个步骤是数据的处理和分析。上面存储的数据是原始数据,原始数据多是杂乱的,还有很多垃圾数据,因而需要清洗和过滤。对于整理过的数据,就可以进行分析,从而对数据进行归类,或者发现数据之间的相互关系。比如著名的啤酒和纸尿布的故事,就是通过对人们的购买数据进行比对分析,发现了男人在买尿布的时候,会同时想要购买啤酒,这样就发现了啤酒和尿布之间的对应关系,掌握了规律,然后应用到实践中,将啤酒和尿布的柜台放到一起,这就是一种智慧。
portant;font-size:17px !important;”>
数据分析是一项很有意思的技术,其功能就是帮我们梳理数据,存储信息,并从信息中总结规律。当数据量很小的时候,几台机器就能分析并解决问题。但是,慢慢的当数据量越来越大,大到最强的超级计算机都解决不了问题的时候,该怎么办呢?这时就要聚合多台机器的力量,也就是使用云计算的力量。
portant;font-size:17px !important;”>
对于数据的传输,一个内存里面的队列肯定会被大量的数据挤爆,于是就产生了基于存储系统的分布式队列,这样的队列可以多台服务器同时传输,随你数据量多大,只要我的队伍足够多,队列足够粗,就能够撑得住。