评论：大数据内在风险需优化管理措施

在2016年大数据展上，一人在试用VR设备。图片来源：新华社

过去15年里，我们见证了大数据爆炸（这些数据来自互联网，社交媒体，科学设备，智能手机，监控摄像头等等），以及涌现出的各种计算机数据处理技术。众所周知，大数据无疑将促进重要领域科学、技术和医学的进步。可它也会因被误用或滥用造成巨大风险。

首先需要担心的是，大量的数据并不等同于高质量数据。比如说，据近期《自然》杂志报道，美国的选举民意调查获得有代表性的人口样本越来越难，因为法律规定，他们目前只能通过呼叫固定电话进行信息调查采集，但事实上越来越多的美国人更偏向用手机。即使我们能通过社交媒体搜集无数民众发表的政治观点，这些仍无法代表投票选民真实的意愿。事实上，推特和脸书上很多政治观点都是电脑自动生成的。

按搜索结果来做聘用与晋升决策的大数据体系，很可能会对黑人不利，而原因仅仅是该候选人与大数据搜索结果中“此发型显得人不专业”的各种图片相匹配，这不过是把传统的社会偏见体现在大数据上罢了。况且这种假设并非空穴来风。去年，网络新闻机构ProPublica对累犯风险模型进行了研究并指出，我们所广泛运用的为被捕犯人进行判决的数据系统，高估了黑人嫌疑人有罪的可能性而低估了白人的犯罪几率。

大数据的另一风险便是它易为人所操纵。人们一旦知道某个数据库会用来做出对他们有影响的决策，肯定会费尽心思把衡量的天平倾向对自己有利的一方。比如说，如果按学生考试成绩对老师进行评估，老师便可能会相应地调整策略，倾向应试教育，有的老师甚至会在教师考评中弄虚作假。

与之类似的还有大学公职人员，为了提升自己大学在美国媒体或是世界大学排名的等级，做出了很多违规行为，比如挪用学术研究经费投资高档豪华健身房。更有甚者还做出了有违师德的行径，圣玛丽山大学为了提高学生保留率，在学校开学前几周便找出了学校学习成绩较弱的学生并令其退学。

要知道，如今大量可获取的数据都含有私人信息，因此，大数据可能带来的第三个风险便是对个人隐私的侵犯。近年来，大量商业与政府网站的机密数据库纷纷被盗；研究人员也表示，人们的政治立场甚至性取向都可以通过搜集平日网上发布的动态（比如影评）准确分析出来——哪怕是人们匿名发布的动态也逃不脱。

最后，大数据在使用过程中缺乏明确的权责体系。因为对大数据分析出的具体结果无法作进一步解读，而且要是编写该决策程序的相关人员拒绝提供该程序运作的具体细节，那么一旦自己在大数据决策中受到了不公待遇，根本就申诉无门。虽然政府和企业可能出于警示不法分子的目的，声称这些大数据的决策程序是基于数学的科学方法，但是，就连政府和企业自己都对这种所谓的科学方法心存敬畏。欧盟近日通过了一项叫“解释权”的措施，用以保证人们不受算法程序的误判。

当然，这项措施在实践中是否有效可行，只有等待时间来告诉我们了。数据科学家凯西·奥尼尔在她近期著作《数学杀伤性武器》中指出，当人受大数据迫害时却求助无门时，对社会将产生深远的负面影响。

当然了，大数据带来的风险是可以大大避免的。为了避免这些风险，我们就要坚定保护个人隐私，监测并纠正数据程序可能造成的不公推测，谨慎对待程序推算出的结论，严格跟进算法内部的运作和推算出决策的数据。

关于作者

恩尼斯特·戴维斯，纽约大学数学科学研究所计算机科学教授。

（编译：罗玲敏编辑：齐磊）