大数据带来的清静挑战
- 时间:2014-04-04
- 泉源:
888集团6008(泉源:畅享网 作者:李玉琴)
科学手艺是一把双刃剑。大数据所引发的清静问题与其带来的价值同样引人注目。与古板的信息清静问题相比,大数据清静面临的挑战性问题主要体现在以下几个方面。
1 大数据中的用户隐私掩护
大宗事实批注,大数据未被妥善处置惩罚会对用户的隐私造成极大的损害。凭证需要掩护的内容差别,隐私掩护又可以进一步细分为位置隐私掩护、标识符匿名掩护、毗连关系匿名掩护等。
人们面临的威胁并不但限于小我私家隐私走漏,还在于基于大数据对人们状态和行为的展望。社交网络剖析研究也批注,可以通过其中的群组特征发明用户的属性。
目今企业经常以为经由匿名处置惩罚后,信息不包括用户的标识符,就可以果真宣布了。但事实上,仅通过匿名掩护并不可很好地抵达隐私掩护目的。
现在用户数据的网络、存储、管理与使用等均缺乏规范,更缺乏羁系,主要依赖企业的自律。用户无法确定自己隐私信息的用途。而在商业化场景中,用户应有权决议自己的信息怎样被使用,实现用户可控的隐私掩护。例如用户可以决议自己的信息何时以何种形式披露,何时被销毁。包括:(1)数据收罗时的隐私掩护,如数据精度处置惩罚;(2)数据共享、宣布时的隐私掩护,如数据的匿名处置惩罚、人工加扰等;(3)数据剖析时的隐私掩护;(4)数据生命周期的隐私掩护;(5)隐私数据可信销毁等。
2 大数据的可信性
关于大数据的一个普遍的看法是,数据自己可以说明一切,数据自身就是事实。但现真相形是,若是不仔细甄别,数据也会诱骗,就像人们有时会被自己的双眼诱骗一样。
大数据可信性的威胁之一是伪造或刻意制造的数据,而过失的数据往往会导致过失的结论。若数据应用场景明确,就可能有人刻意制造数据、营造某种“假象”,诱导剖析者得出对其有利的结论。由于虚伪信息往往隐藏于大宗信息中,使得人们无法判别真伪,从而做蜕化误判断。例如,一些点评网站上的虚伪谈论,混杂在真实谈论中使得用户无法区分,可能误导用户去选择某些劣质商品或服务。由于目今网络社区中虚伪信息的爆发和撒播变得越来越容易,其所爆发的影响不可低估。用信息清静手艺手段判别所有泉源的真实性是不可能的。
大数据可信性的威胁之二是数据在撒播中的逐步失真。缘故原由之一是人工干预的数据收罗历程可能引入误差,由于失误导致数据失真与误差,最终影响数据剖析效果的准确性。别的,数据失真尚有数据的版本变换的因素。在撒播历程中,现真相形爆发了转变,早期收罗的数据已经不可反应真真相形。例如,餐馆电话号码已经变换,但早期的信息已经被其它搜索引擎或应用收录,以是用户可能看到矛盾的信息而影响其判断。
因此,大数据的使用者应该有能力基于数据泉源的真实性、数据撒播途径、数据加工处置惩罚历程等,相识各项数据可信度,避免剖析得出无意义或者过失的效果。
密码学中的数字署名、新闻判别码等手艺可以用于验证数据的完整性,但应用于大数据的真实性时面临很大难题,主要泉源在于数据粒度的差别。例如,数据的起源方可以对整个信息署名,可是当信息剖析成若干组成部分时,该署名无法验证每个部分的完整性。而数据的起源方无法事先预知哪些部分被使用、怎样被使用,难以事先为其天生验证工具。
3 怎样实现大数据会见控制
会见控制是实现数据受控共享的有用手段。由于大数据可能被用于多种差别场景,其会见控制需求十分突出。
大数据会见控制的特点与难点在于:
(1)难以预设角色,实现角色划分。由于大数据应用规模普遍,它通常要为来自差别组织或部分、差别身份与目的的用户所会见,实验会见控制是基本需求。然而,在大数据的场景下,有大宗的用户需要实验权限管理,且用户详细的权限要求未知。面临未知的大宗数据和用户,预先设置角色十分难题。
(2)难以预知每个角色的现实权限。由于大数据场景中包括海量数据,清静管理员可能缺乏足够的专业知识,无法准确地为用户指定其所可以会见的数据规模。并且从效率角度讲,界说用户所有授权规则也不是理想的方法。以医疗领域应用为例,医生为了完成其事情可能需要会见大宗信息,但关于数据能否会见应该由医生来决议,不应该需要管理员对每个医生做特别的设置。但同时又应该能够提供对医生会见行为的检测与控制,限制医生对病患数据的太过会见。
别的,差别类型的大数据中可能保存多样化的会见控制需求。例如,在Web2.0小我私家用户数据中,保存基于历史纪录的会见控制;在地理地图数据中,保存基于标准以及数据精度的会见控制需求;在流数据处置惩罚中,保存数据时间区间的会见控制需求,等等。怎样统一地形貌与表达会见控制需求也是一个挑战性问题。