从大数据与“全数据” 看归纳问题

2019年05月21日 10:10 来源:中国社会科学网-中国社会科学报 作者:刘培 池忠军

  随着大数据技术在工业与社会生活各方面的广泛应用,大数据技术应用的哲学研究也在不断推进。其中一个重要问题是牛津大学教授迈尔-舍恩伯格(Viktor Mayer-Sch?觟nberger)所言的“更多”:大数据获取的不是随机样本,而是所有数据,即“全数据”。学者对这一观点纷纷表达了自己的立场:赞同者认为,与小数据时代相比,大数据能够收集与分析海量数据,实现了“全样本数据”;反对者则认为,由于数据表征的局限性,大数据并未实现“全数据”。事实上,无论是赞同还是反对,他们大多是从数据表征事物这一立足点来进行讨论。为了更深入地认识大数据与“全数据”的问题,可以反其道而行之,即从“事物”在何种程度上能够被数据所捕捉入手,讨论何为“全数据”以及大数据与“全数据”的关系。

  何为“全数据”

  “全数据”指可显现且能被数据化的“事物”。“事物”是纷繁复杂各不相同的万事万物的总名,它既包括实体性的物,也包括具有关联性、时间性的事。在大数据背景下,人对事物的认识不再直接地面对事物的自然外显,而是面对被技术化的事物,即事物—数据—人。在此情形下,“事物”的自然显现已不再是我们的认识对象,大数据技术建构“事物”并呈现出来的数据才是我们的认识对象。大数据技术能够在何种程度上建构与呈现“事物”?这涉及“事物”的显现与数据之间的关系。事物与数据的关系可以分为三种情形:一是可显现的,其中有能被数据所捕捉的,也有数据不能达及的;二是若隐若显、若有若无的,它可能在某一瞬间被数据把握并以数据的形式表征出来;三是不可显现的,因而也不可能以数据的方式通达。从这三种情形可以看出,“全数据”所指的并不是万事万物,而是可显现的、能被数据化的那部分事物。

  与此同时,从“全”的视角来看,“全数据”是一个兼具客观性与主观性的概念。数据来源于“事物”,因此,“全数据”的客观性指的是事物能被数据完整、准确地表征。正如前面提到的,在事物已敞现的层次上,“全数据”就是以数据化的方式如实呈现与镜像事物所能敞现的部分,进而形成高度解析的、微粒化的“事物”。而对于那些尚未敞现或尚无力捕捉的事物,“全数据”则是借助大数据技术的发展与其他新科技促使它们敞现,进而真实地把握。

  然而,客观的“全数据”是基于诸多技术的,技术在赋予其客观性的同时也不可避免地带来主观性。也就是说,是否是“全数据”涉及认识主体的主观判定。具体而言,“全数据”受到技术工具、认识对象等多种因素的影响,因而具有不确定性。一方面,在以数据为中介认识事物的前提下,认识工具在很大程度上决定了可获数据的质与量。例如,大数据时代,大数据技术处于不断地更新与发展之中,在不同的发展阶段获取的数据质与量会存在差异。另外,由于主体应用大数据技术的水平与能力的限制,会不可避免地导致不同主体对其所获数据是否是“全数据”的判定存在一定的差别。另一方面,“全数据”还会受到认识对象的影响。数据来自于自然界、生命与人类社会,其中前两者多涉及自然科学,相较于人类社会而言,研究对象能在较大程度上转换为数据;而后者则涉及人类社会与社会事务的数据化与计算化,其中不仅人类认识的无意识部分等内容难以数据化,而且存在政治情感、社会关系等数据化的准确性问题。总而言之,“全数据”只是对“事物”中可观察到的、可数据化的内容的表征,它们会因人而异、因地而异和因时而异。

  大数据不等于“全数据”

  通过上面对“全数据”的阐述,对于大数据与“全数据”的关系,我们可以得出这样一个基本判断:大数据不等于“全数据”。

  一方面,大数据可以从量的方面认为是海量数据,却不能等同于“全数据”。尽管当下对于大数据概念还存在多义与含糊的情况,但就大数据在量上的特征还是取得了一致的共识:海量数据,它将以往所不能获取的文字、方位、沟通、心理等内容都数据化,并因而产生“取之不尽,用之不竭”的数据。依据上面的分析,尽管较之小数据时代已是海量数据,但“全数据”的外延大于大数据,因而不能将大数据称为“全数据”。

  另一方面,“全数据”是人们借助技术追求确定性世界的一种理想情形。技术是寻求确定性的工具,而大数据技术则是当下最有力的工具,其核心力量在于它所宣称的“量化一切”,并在此基础上了解当下、把控未来。尽管当下大数据技术还不能量化一切事物,但随着大数据技术的不断发展,其数据化的对象范围必将进一步扩大。甚至伴随科学技术的进展,可能会出现其他更为强大的数据化技术,进而让人们无限趋近“全数据”的理想。或许正是在此意义上,全球数据仓库技术专家宝立明(Stephen Brobst)在2018年发表的演讲“数据分析的未来”中指出,应以全数据思维取代大数据思维,因为“未来,大数据这个词或许会消失,取而代之的是数据或所有数据(全量数据),但数据分析会一直存在”。

 审慎认识数据归纳

  无论是当下的大数据还是作为理想的“全数据”,它们的共同实质在于:不直接面向事物本身,而是间接地透过数据认知与把握万事万物。具体如何认知与把握呢?数据分析是关键所在。数据分析是一个较为宽泛的概念,只要是对数据进行的计算、处理进而实现从数据、信息到知识的过程都可以称为数据分析。对于大数据而言,在诸多大数据分析技术的方法中,数据归纳最为显著。在数据归纳的视野中,万事万物的数据化形成全数据,在此基础上,以归纳法为中心的数据驱动是其核心内涵。例如,就大数据挖掘而言, 包括分类、聚类、关联规则挖掘等方法。分类主要将数据集按照建立好的分类模型进行分类,决策树是常用的分类技术之一,其实质是以实例学习为基础的归纳学习算法;聚类也是将一组数据按照相似性与差异性分为不同的类别;关联规则挖掘旨在发现事物之间可能存在的联系,也是按照数据集支持度和信任度的符合程度进行分类。

  尽管大数据时代的数据归纳较之传统的样本数据归纳在样本的量、多样性以及计算能力等方面有很大的改进,但仍旧面临着归纳结果准确性的问题。其原因既有归纳法本身的缺陷,也有数据归纳所引发的新问题。具体来说,如果将传统的归纳法简化为事物—归纳,那么数据归纳则是事物—数据—归纳。因此,数据归纳结果存在的问题就可以从两个方面来分析:一是从事物—数据这一过程来看,“全”是不可能的且“准”是不确定的。若将数据归纳立足于“全数据”,这一基础并不存在:就“全”来说,数据归纳的基础是海量数据而非“全数据”;就“准”来说,海量数据也并不一定能准确反映外显的、数据化的事物,可能捕捉到的是假象。二是从数据—归纳这一过程来看,目标变量的定义、训练数据选择、类标签设定以及噪音数据等问题都可能造成大数据描述与预测的不准确。

  因此,我们在充分利用数据归纳优势的同时也需要审慎地认识数据归纳。尤其是对于社会科学研究而言,分析人类社会现象“既不能用显微镜,也不能用化学试剂。二者都必须用抽象力来替代”。也就是说,只有运用人类的抽象思维能力,启动从具体到抽象再到具体的思维过程,解读数据归纳发现的相关性,剥离那些偶然的、非本质的相关性,才能深刻把握人类社会。

(作者单位:中国矿业大学马克思主义学院)