论大数据剖析的准确要领 应理智看待
- 时间:2013-11-29
- 泉源:
888集团6008(泉源:CIO时代网 作者:chenjian)
据统计,从人类文明最先到2003年,人类共创立了5TB(兆亿字节)的信息。现在,同样的数据量仅需两天就能够被创立出来,且速率仍在加速。云云重大的数据量使数据剖析重大化,而大数据中的非结构化数据将加深这种重漂后。
这种情形下,我们需要清晰:什么样的数据应被生涯。若是从整体性出发,数据收罗和存贮算不上大数据,对海量数据举行剖析盘算之后的效果才有现实价值。这亦是大数据的价值所在。
关于大数据数目,业内一种较为激进的看法以为,“大数据”的叫法保存问题,由于数据只有“大”是没有用处的。虽然数据无处不在,但唯有复用性强和可转化成有用笼统信息的数据才更有价值。
纵然我们的数据搜集、处置惩罚能力逐渐增强,仍然要坚持“不是任何数据都主要”这一准则。对企业来讲,详细需遵照两点,一是坚持数据普遍性,对内掌握企业内部分析数据,对外摸准用户喜欢和习惯;二是坚持数据要害性,从最主要处着手,掌握数据复用性,抵达最大价值又使本钱最优化。
《哈佛商业谈论》近期揭晓了一篇题为“更大的数据会导致更好的决议吗?”的文章,这篇文章提出忠言,把重点放在量的方面将导致大过失。现在许多企业试图通过重大的数据量获得利益,但只有少数企业真正取得乐成,这是太过注重数据“量”带来的误差。
大数据剖析之数据质量与数据分享
我们知道,要包管剖析效果的准确性,必需确保被剖析数据真实有用,至少绝大部分数据样本要有质量包管。但在大宗数据从数据源汇聚而来的历程中,难免有以次充好的数据混入。
在某网购时,卖家信用品级是买家购置与否的主要参考。为了提高产品销售量,刷信用品级成了业内果真的神秘,陪同着部分卖家弄虚作假、违规提高信用品级的历程,将爆发大宗失真数据,在诱骗消耗者的同时,也会直接影响后期数据剖析效果。
其次,中国互联网工业中,“数据盘据”征象较严重,即掌握大宗焦点数据的几大互联网巨头各自为战,不肯分享。他们都意识到数据关于未来企业竞争力的主要性,因此不会将自己手中的数据筹码容易示人。
CMIC以为,在大数据洪流汹涌袭来确当下,信息的流动才是重中之重,互联网巨头们的数据盘据头脑严重阻碍着整个工业的生长。尤其关于那些拥有大数据剖析手艺却无大数据源的中下游企业来说,面临“巧妇难为无米之炊”的逆境。