888集团6008

888集团6008动态

论大数据剖析的准确要领 应理智看待

  • 时间:2013-11-29
  • 泉源:

  888集团6008(泉源:CIO时代网  作者:chenjian)

  据统计 ,从人类文明最先到2003年 ,人类共创立了5TB(兆亿字节)的信息。现在 ,同样的数据量仅需两天就能够被创立出来 ,且速率仍在加速。云云重大的数据量使数据剖析重大化 ,而大数据中的非结构化数据将加深这种重漂后。 

    这种情形下 ,我们需要清晰:什么样的数据应被生涯。若是从整体性出发 ,数据收罗和存贮算不上大数据 ,对海量数据举行剖析盘算之后的效果才有现实价值。这亦是大数据的价值所在。 

    关于大数据数目 ,业内一种较为激进的看法以为 ,“大数据”的叫法保存问题 ,由于数据只有“大”是没有用处的。虽然数据无处不在 ,但唯有复用性强和可转化成有用笼统信息的数据才更有价值。 

    纵然我们的数据搜集、处置惩罚能力逐渐增强 ,仍然要坚持“不是任何数据都主要”这一准则。对企业来讲 ,详细需遵照两点 ,一是坚持数据普遍性 ,对内掌握企业内部分析数据 ,对外摸准用户喜欢和习惯;二是坚持数据要害性 ,从最主要处着手 ,掌握数据复用性 ,抵达最大价值又使本钱最优化。 

    《哈佛商业谈论》近期揭晓了一篇题为“更大的数据会导致更好的决议吗?”的文章 ,这篇文章提出忠言 ,把重点放在量的方面将导致大过失。现在许多企业试图通过重大的数据量获得利益 ,但只有少数企业真正取得乐成 ,这是太过注重数据“量”带来的误差。 

    大数据剖析之数据质量与数据分享 

    我们知道 ,要包管剖析效果的准确性 ,必需确保被剖析数据真实有用 ,至少绝大部分数据样本要有质量包管。但在大宗数据从数据源汇聚而来的历程中 ,难免有以次充好的数据混入。 

    在某网购时 ,卖家信用品级是买家购置与否的主要参考。为了提高产品销售量 ,刷信用品级成了业内果真的神秘 ,陪同着部分卖家弄虚作假、违规提高信用品级的历程 ,将爆发大宗失真数据 ,在诱骗消耗者的同时 ,也会直接影响后期数据剖析效果。 

    其次 ,中国互联网工业中 ,“数据盘据”征象较严重 ,即掌握大宗焦点数据的几大互联网巨头各自为战 ,不肯分享。他们都意识到数据关于未来企业竞争力的主要性 ,因此不会将自己手中的数据筹码容易示人。 
 
    CMIC以为 ,在大数据洪流汹涌袭来确当下 ,信息的流动才是重中之重 ,互联网巨头们的数据盘据头脑严重阻碍着整个工业的生长。尤其关于那些拥有大数据剖析手艺却无大数据源的中下游企业来说 ,面临“巧妇难为无米之炊”的逆境。




网站地图