重视大数据时代资料收集多样性

2019年03月13日 08:25 来源:《中国社会科学报》2019年3月13日第1651期 作者:姚晓丹/编译

 本报综合外媒报道 信息技术高速发展,互联网应用迅速普及,大数据时代的数据资料收集与整理变得更加容易。但也有学者表示,过于重视互联网上收集到的数据并不利于科学研究。

  3月5日,荷兰莱顿大学举办了题为“公平和透明度,发展负责任的数据科学”的研讨会。会上,美国东北大学硅谷校区数据科学研究负责人里卡尔多·巴伊赞-耶茨表示,互联网是一个能够快速收集大量数据的好地方,如果研究人员不对收集到的信息进行仔细甄别,就可能得到非常片面的数据。受访人员的文化背景、所处区域、教育水平和年龄等都会影响调查结果。例如,研究人员仅从英文网站上收集数据,就等于主动排除了来自其他语言和文化的信息。此外,许多社交网站都有一个共同的特点,即少量的用户创造了大量的内容。数据显示,约2%的推特用户生产了推特上超过一半的内容。搜索引擎也会根据用户的浏览习惯对信息进行有选择的推送,这就导致人们难以看到全部的有用信息。

  巴伊赞-耶茨认为,研究人员应该始终保持谨慎的工作态度,确保研究数据、资料来源多样化,不能单纯依赖互联网上快捷的信息收集方式,要坚持使用传统的数据收集方式并发现更多的数据来源。同时,应注意克服偏见,因为许多研究人员的工作本身就是以一定的假设为基础或前提的。

  比利时荷语布鲁塞尔自由大学法律与技术衔接教授米雷耶·希尔德布兰特表示,目前研究人员越来越多地使用可从海量数据中识别出有用样本的自学习系统,然后利用这些样本开发出可以研究或发现新数据的预测算法和数学模型,并最终获得了大量可用于不同研究的数据。但从法律角度来看,这可能会构成一种“不诚实”的行为,因为受访者在接受调查时往往并没有同意研究人员随意使用与自己有关的数据。研究人员应就数据的使用与受访者达成明确协议,并在研究目的、手段等发生变化时及时告知。否则,从受访者处得到的数据只能被用于最初的研究目的。(姚晓丹/编译)