大数据与小数据:政治科学因果分析

2018年10月31日 10:08 来源:中国社会科学网-中国社会科学报 作者:赵娟

  政治科学研究越来越强调寻找因果机制。许多合乎逻辑的实证研究,均以各种方法分析因素和变量间因果关系,指明其作用如何产生、其结果何以形成,以探求其中的作用机制。随着互联网及大数据技术的蓬勃发展,大数据方法丰富了社会科学研究方法、拓展了政治科学研究议题,但与此同时,不能忽视传统小数据研究方法的必要性,二者在推进因果解释中具有互补性优势。

 政治科学中的因果分析

  伴随着实验方法的发展和应用场景的丰富,政治科学研究经历了从因果关系(或称因果效应)分析到因果机制解释的关注转变。

  因果关系主要回答“X影响Y”的问题,因果机制主要在于提供“X如何影响Y”的解释。在因果关系分析中,现已形成运用充分必要条件逻辑的休谟(David Hume)传统、遵循共融性(Cotenability/反事实与现实前提逻辑一致)原则的反事实推理(Counterfactuals)、控制关键变量分离单一变量对结果影响的实验方法等不同视角。因果机制是探讨原因如何导致结果的过程,致力于揭示因果关系形成的作用机制,是在因果关系基础上的重要补充。二者的区别在于:因果关系分析侧重寻找结果的原因(Causes of Effects),即从一个结果回溯其原因何在,强调系统地检验社会现象之间的关系;因果机制更加强调识别原因的影响(Effects of Causes),即始于从原因追问如何对结果产生影响。因此,近年来越来越多的研究者不再满足于识别变量之间的因果关系,转而致力于寻求因果关系背后机制的阐释。

  目前,学界对因果机制的界定各异。从马奥尼(Mahoney)总结的24个定义,到格零(Gerring)归纳的10种类型来看,学者对因果机制是否易于观察、是普遍性理论还是有限性理论、是偶然性解释还是常规性解释、属中观理论还是微观理论等认知,存在诸多争议。但是,上述有关争议还是形成了一些共识,即认为因果机制是介于社会现象描述和社会定律之间的中层层面,是打开原因和结果的“黑箱”,是探寻因果关系的过程、路径、环节和链条;在研究方法上,既可通过个案资料等数据的搜集进行质性分析,也可通过数学模型进行量化分析、呈现理论。在探索因果机制的多重路径和方法中,主要基于各种形式实证数据的分析归纳来建构与经验相符的理论。

大数据拓展因果分析方法路径

  大数据时代的来临,对传统政治科学的因果分析研究客观上形成了巨大冲击,甚至有国外专家提出,大数据使传统科学研究方法过时了。同时,大数据方法因更重视相关性而非因果性分析亦饱受诟病。由此,国内外学者从实践、方法论层面展开了广泛讨论。

  例如,一些政治学者早期在探究因果机制过程中,通过降低分析层次、寻求微观基础,来打开因果关系“黑箱”。他们研究隐藏在政治现象背后的社会整体趋势和运转模式,通过案例观察、深度访谈、抽样调查、实验研究等方式,获得了社会个体的态度、认知、行为和互动数据。而伴随互联网的发展,大数据技术为获取这些数据以及揭示以往难以直接观察的行为,创造了可操作的空间。

  有学者提出,大数据所凸显的相关关系,在实践层面实质性地推进了对传统因果概念的深入反思。其展示的正负、强弱相关关系指向“我们解开既存结果——事物现象的密码”。在把握全量数据的变量相互作用基础上,人们从既存结果推展到潜在结果,可对即将产生的社会现象形成原因和结果的精确预判。大数据所刻画的这一因果结构,是运用数据分析因果的基础,为探索性分析和生成假设开辟了新的可能性,增加了实证检验的理论意涵。

  此外,相对于传统研究方法,大数据提供了更加多元的方法论工具包,且在推进因果推论的功能上逐步完善。特别是在描述性推论(分类、聚类方法)、相关性推论(主题分析、情感关系分析)、因果推论(可与传统统计方法、实验方法等结合)和预测性分析(机器学习等)方面,日渐成熟的方法创新推动着政治科学研究范式的变迁。

 小数据在大数据方法中的延伸

  相比传统政治学通过抽样问卷、实验研究、深度访谈等方式所获得的小数据,政治科学因果分析的大数据方法具有以下6种优势:一是整体性。大数据在获取近乎全量数据的基础上,使研究者对社会现象具有全面系统认知,可有效解决抽样或实验数据中的代表性和抽样误差问题。二是客观性。大数据是原始行为记录和网络行为痕迹基础上的分析,而非有目的性地设计和采集数据。因而,它是社会现象运行模式和规律等的客观反映。三是时空性。大数据所蕴含的时空信息,使研究者对一定时间或空间中整个社会行为的趋势变化判断成为可能。四是即时性。大数据技术可实时采集互联网记录的公众行为痕迹与各类网络数据,及时反映社会事件发展、民情民意变化、经济波动过程或信息传播结果等,可为政府决策提供时效性和针对性强的数据实证支撑。五是历时性。时间维度是过去传统研究方法开展因果分析的一大局限,如抽样调查耗费成本巨大、实施周期长,而大数据则可实时收集整合数据,形成某个时间维度上的长跨度数据库,这是其他研究方法所无可比拟的。六是特殊性。大数据方法将海量数据以可视化形式呈现,有助于学者发现特定区域的异常现象,从而有选择性地对特殊事件进行深度剖析。

  然而,面对大数据的被动性、可获得性、个案差异等局限,小数据方法有助于共同推进因果机制的探索。小数据虽具有成本高、周期长、覆盖偏差、抽样误差等局限,但较之于大数据研究逻辑,它具有以下显著特点:首先,主观性优势。较之大数据只能客观获得已经存在的数据而言,小数据具有目的明确、设计性强的优势。研究者可根据研究目的和需求,设计问卷、访谈问题或调查实验,从而获取有用数据。其次,代表性优势。目前来说,大数据主要对网络用户群体行为产生的海量数据进行分析,该数据体量庞大,但在总人口中对不通过网络表达个人意见或不使用网络的人群有所忽略。小数据则可予以互补。如通过GPS-GIS辅助的科学抽样方法,通过分层多阶段抽取样本开展调查,从而获得覆盖各类人群意见的代表性抽样数据。再次,个案解释差异性优势。小数据在公众行为产生原因、政府—社会互动机制、主体行为策略等内在逻辑的个案分析和解释上具有明显优势。个案研究所获小数据可使研究者深入了解个案全貌与过程,在此基础上提炼的社会现象因果机制,具有个案在同质性和异质性方面的更强理论解释力。

  总之,大数据与小数据并非是单纯相斥与替代关系,二者可利用彼此优势、互补结合,为推进因果机制分析提供更有力的方法论工具。整体来看,二者可以通过以下方式实现有机结合:第一,大数据提供宏观背景分析,小数据作因果机制解释。运用大数据初步挖掘与分析结果来认知社会运行整体模式与机制、提出理论假设,在此基础上有针对性地采取小数据进行个案深度阐释和假设验证。第二,基于小数据分析提出理论假设,运用大数据来检验理论解释力。运用小数据的先验知识为大数据挖掘提供方向指引,在此基础上,对通过个案或抽样数据提出的理论进行大数据验证。第三,通过大数据分析识别的变量间关系,为小数据调查或干预提供参考,以获得对变量影响机制的情景设置,并深度分析此情景下的个体认知与行为互动策略等背后的内在逻辑。长远来看,大数据和小数据方法的有效融合是一个趋势,二者结合将共同推进政治科学探索因果机制的理论挖掘和实证研究。

 (作者单位:清华大学社会科学学院政治学系)