尽管数据与算法应用的价值不可否定,但我们需要对数据和算法应用的失误或失范有足够的警惕,也需要增强对抗风险的能力。在中国,观念、基础条件、规范等方面的障碍,都意味着数据应用特别是大数据应用的推进需要时间。功利、草率的思维和行为都是对数据应用的损害而非推动。在数据技术的大跃进过程中,我们也需要回归原点,完成一些基本建设。
数据素养的培养
19世纪后,美国的数据文化沿着“共和政治”和“经济发展”两条线共同发展,以培养有智识的公民为目标,大力普及数学教育,把数据意识成功推向整个社会,这样的数据素养基础或许是美国在大数据应用方面走在世界前列的原因之一。
反观中国,尽管“中国人的数学好”是国外对中国人的刻版印象之一,中国的中、小学数学教育似乎也是很严格的,但数学教育不等于数据教育,数据素养运比进行数学运算的能力要复杂得多。事实上,中国公众的数据素养存在着普遍不足。
研究者金兼斌指出,所谓数据素养(data literacy),是指人们有效且正当地发现、评估和使用信息和数据的一种意识和能力。通常,数据素养概念包含数据意识、数据获取能力、分析和理解数据的能力、运用数据进行决策的能力以及对数据作用的批评和反思精神。这一界定,揭示了数据素养所涵盖的多个层面。他的观点也代表了很多研究者的观点。
作为数据应用影响最突出的行业之一,今天的传媒业需要将数据素养作为媒体人的核心素养之一。尽管媒体的数据应用在丰富,媒体的生产流程变革也带来了更多的数据资源,在一些媒体的“中央厨房”中也提供了各种维度的数据,但是,如果没有严格的训练,媒体人或许难以将来自各方面的数据转化为有价值的、可靠的新闻,甚至可能会不断地生产出数据垃圾。
数据素养也应成为公民基本素养之一。全民数据素养的提高,不仅有助于公众自身对数据判断能力的提高,也会带来“水涨船高”的效应,有助于对数据分析机构(包括媒体)的数据分析水平进行监督,反过来推进数据应用水平的整体提升。
除了对数据的辨识与应用能力外,今天这个时代的数据素养,还应意味着批判性应用能力的深化。数据的风险意识、伦理意识,对算法的反思与使用中必要的节制,个人的数据保护意识、隐私意识等,或许都应是数据素养所涵盖的。
数据资源“基础设施”建设
美国之所以在数据应用方面走在世界前列,还因为在长期实践和积累中,政府机构在数据质量、开放性和数据使用规范都打下了良好的基础。进入大数据时代,美国政府进一步推进了数据资源的“基础设施”建设。前美国总统奥巴马在2009年上任伊始就签署了《透明与开放的政府备忘录》(Memorandum on Transparency and Open Government),号召政府致力于“建立一个透明的、公众参与的、协作的制度体系”,并且对“透明”、“公众参与”、“协作”三原则进行了解释。2009年 5 月,作为美国开放政府建设重要行动之一的Data. gov网站上线, 各政府机构均被要求积极向网站提供数据,公民可以自由检索并获取联邦政府数据。2009年12月8日,《开放政府指令》(The Open Government Directive)发布,要求主要政府机构必须提供三个高价值的数据集。
而在中国,数据的基础设施建设却仍处于起步阶段,虽然也有一些政府机构网站可以提供某些方面的数据,但总体来看,数据的完整性、时效性和可靠性都不尽如人意,多数行业性数据也难以满足大规模、持续的数据应用需要。而目前由一些服务商垄断的用户数据,也很难转化成公共性的资源。缺乏可靠的、开放性的、公益性的数据库资源,是今天进行数据分析和应用的重要障碍之一,特别是对于媒体和研究者来说。
公共数据库和其他数据资源的建设,应是未来若干年需要重点解决的问题,这也是决定未来中国的数据应用水平的基础之一。
数据质量评估体系的建立
在大量的机构在进行着数据分析甚至以此为营利模式时,如何对数据质量进行评估,变得越来越重要。
由于利益的原因,要数据分析机构来评估自身,显然不可行。而数据的使用者或公众,也很难有相应的评估能力。更为可行的,应该是具有相应资质、独立的第三方机构来进行评估。
第三方机构对数据质量的评估,也需要遵循严格、科学的评估框架,否则这些第三方机构也可能因利益因素而沦为数据生产者的同盟者,或沦为摆设。
进入大数据时代后,原来有着良好的数据应用传统的欧洲和美国都开始制定大数据的质量标准。图1是欧洲经济委员会(UNECE)建议的大数据质量框架。它将大数据质量框架分为三个阶段:数据投入(Input)、数据处理过程(Throughput)、数据产出(Output),对数据应用的每一个环节都制定了相应的标准与规范。此外,欧盟统计局也设计了官方统计使用的大数据的认证程序,美国普查局和公众舆论研究协会也有自己对非传统数据的质量评估标准或评估框架。
但是,在国内的大数据热潮下,我们似乎没有看到相关管理机构质量标准的跟进,在各种数据应用(包括大数据应用)的成果推出时,也没有看到相应的评估。而一些决策,包括人们常说的舆情研判,却常常建立在这些没有质量监测的数据分析结果上。
另一方面,即使有相应的评估标准,在执行中,也存在种种复杂性。例如,美国在2000年通过了《数据质量法》,要求“各部门都必须建立相应的数据审查复核机制,尽最大可能保证联邦政府所发布信息及统计数据的‘质量、客观性、实用性以及完整性’”,但是由于没有清晰界定谁对数据的质量拥有最终的解释和裁定权,因此,在实施后也遭遇重重问题。一个典型问题是,公共利益代表的缺位。该法案生效时,OIRA(美国行政管理预算局下设的信息和管制办公室)主任格雷厄姆曾认为,无论公司、还是消费者和环境保护的公益组织,全社会都可以来质疑政府发布的数据是否准确,各种不同的利益,都将得到保护。”但有研究者指出,后来的现实状况是,《数据质量法》仅仅成了商业组织反对管制标准的利器,面对相应问题,商业组织可以迅速组织起来进行游说,而利益受到了侵害的大众,却无法组织起来与公司抗衡。
在数据评估实施中,如何兼顾和平衡多方利益,如何建立完善的评估机制,仍将有诸多挑战。但至少,评估体系应该成为数据时代制度建设的一部分。
信息伦理规范的约束
今天,数据或算法越来越成为一种权力的体现——无论是数据获取或数据分析,还是算法设计及应用。数据与算法权力的过分垄断、数据与算法权力的滥用与利益裹胁等问题,都愈发严重,相应的伦理规范的制定与执行,变得更为重要。
20 世纪70 年代中期,美国伦理学家曼纳(Walter Maner)率先提出并使用“计算机伦理学”这个术语。1986 年,美国管理信息科学专家梅森提出了信息隐私权 ( Privacy) 、信息准确性 ( Accuracy) 、信息产权 ( Property) 和信息存取权 ( Accessibility) 4 个信息伦理议题。拉里·贾德(Larry R.Judd)在1995年提出了信息时代提高伦理与道德的三个准则:适当地承担责任;预料消极影响;以约翰·罗尔斯的正义原则为指导试图追求公平。
在国内,针对近年来发展中的问题,也有学者提出,为了披露与削减数据和算法权力的误用和滥用,应对数据和算法施以“伦理审计”。其基本策略是,从智能认知与算法决策的结果和影响中的不公正入手,反向核查其机制与过程有无故意或不自觉的曲解或误导,揭示其中存在的不准确、不包容和不公正,并促使其修正和改进。
2017年1月,在美国加利福尼亚州阿西洛马举行的Beneficial AI会议上,特斯拉CEO埃隆·马斯克、DeepMind创始人戴米斯·哈萨比斯以及近千名人工智能和机器人领域的专家,联合签署了阿西洛马人工智能原则。该原则指出,科学家认为人工智能应符合一般的“人的价值”之类的尊严、权利、自由和文化等多样性。这意味着人工智能不应侵犯任何人的隐私、自由或安全。人工智能研究的目标,应该是创造有益(于人类)而不是不受(人类)控制的智能。该原则倡导的伦理和价值原则包括:安全性、故障的透明性、审判的透明性、责任、与人类价值观保持一致、保护隐私、尊重自由、分享利益、共同繁荣、人类控制、非颠覆以及禁止人工智能装备竞赛等。
这些来自不同方面的信息伦理规范倡议,要得以真正实施,还需要跨越很多障碍,但是,伦理的引导,是数据时代的一个必然选择,某种意义上,数据伦理比以往的其他技术伦理还要重要。
20多年前,尼葛洛庞帝在《数字化生存》一书的前言中写道:“计算不再只是和计算机有关,它决定我们的生存”。今天即使是普通人都深刻地理解了这句话。这样一个时代,数据、算法成为决定我们生存方式的重要因素。识别、抵抗这其中的种种风险,也应该成为我们生活的一部分,成为媒体和各种数据应用机构的基本责任。