(微博关键词,来自我的两个微博)
上面的两张图片,是我微博的“微博关键词”(两个微博,一个写点随感心得,一个做咖啡文化推广)。微博应用,通过后台统计,将近期在我微博里频繁出现的一些词汇,加以汇总,然后罗列出来。并且根据这些词汇,在微博中的出现次数,来确定图片上关键词的字体大小和颜色。其实,这种关键词的统计,相当于“云计算”,近似于“大数据”。但这还不是大数据,因为,这只是统计了我近期发布的微博中的关键词,而不是基于我的全部微博。
也可以说:这只是对我近期发布的微博,进行的一次“区域抽查”而已,并不是对我的所有微博进行的关键词汇总和统计。而大数据最基础的概念,是“总体=样本”。什么是“总体=样本”,也就是说:大数据是对总体的信息和数据,来加以汇总统计,把所有的数据都囊括在内,然后通过云计算来进行分析处理。在海量的数据中发现某些微妙规律和内部玄机,找出事物与事物之间的相关性,或者发现某些潜在的诱因,从而制定出预防和解决问题的新方案。
而以前的统计学都是抽样调查,抽样调查可以是“随机抽样”、“批次抽样”和“整群抽样”等。由于产品和数据众多,数据处理的手段也比较落后,所以,只能随机、分批或从整体中抽取一些样本,来进行质量检验和数据分析,从而“以点带面”的反应整体情况。而大数据时代,要做统计学调查,就不用再进行抽样调查了,而是把所有的产品和数据都综合归纳,通过云计算来进行分析处理,从而“和盘托出”的反映整体的实际情况。