神化大数据不可取
大数据不仅是用于研究的经验材料,也是一种获取材料的方式和运用材料的方法,具有独特的方法论逻辑。然而,大数据作为一种收集和分析资料的方法,能不能用于社会学研究之中,它在方法论上的基础是什么,其适用性和边界又在哪里,这些问题依然没有得到充分探讨和回答。
一、大数据的方法论逻辑
大数据是将社会生活数字化、数据化、变量化,再通过测量这些变量,提取量化信息,得到关于这个变量的描述以及多变量关系的分析。大数据方法与定量研究范式有着共同的认识论基础,但又有其特有的方法论特征。
1、样本趋近总体
社会学定量研究为调查某一社会现象在总体中的情况,在抽样框中随机抽取一定比例的样本,通过描述和统计等一系列方法,得到样本之中不同变量间的关系,并以此为依据推论总体之中这些变量之间的状况。而以大数据为经验材料的研究不涉及随机抽样的问题,而是将全部总体纳入到分析的框架内,得出的变量之间的关系也无需参数检验,直接用于反映总体趋势。
2、利用非传统方式获取数据
一方面,大数据不同于传统问卷调查依靠被研究者的主诉来获得资料,而是直接利用技术手段对被研究者的行为进行检测。另一方面,大数据的获取不依赖传统的社会统计部门,它往往基于现代科技手段,采取实时监控、测量、存储的方式整合海量信息。
3、通过归纳建立模型
传统的定量研究先提出假设,并设计基于假设的待检验模型,进而通过分析数据证明或证伪假设及相关统计模型。而大数据方法是通过对海量的数据进行分析,寻找变量之间的关系,而后建立模型。这也就意味着通过大数据方法建立的模型并不反应必然规律,而是在非实验控制的条件下,一系列影响因素综合作用的结果。虽然这种模型具有模糊性与偶然性,却可以在一定程度上预测现象发展的趋势。
4、呈现相关关系而非因果关系
定量研究目的是为变量的变异性提供因果解释,用其他变量解释所要研究的变量的变异性。而应用大数据,尤其在商业领域,其目的是销售商品,这种情况下商家只需要了解用户的行为与销售额的相关关系为何,并以此作为决策依据,向用户推荐可能需要的商品,指导商业活动,而不需要为这种相关性做出解释。
二、大数据的方法论困境
1、被研究者的主观性问题
大数据更多强调对个体活动的监测来获取数据,而非如传统的定量调查采取问卷的方式。其中隐含的预设是,个体的主诉是含混不清的,被研究者有意隐瞒或是无意遗忘都可能会影响到数据的信度与效度,而对个体活动监测得来的数据就可以避免被研究者主观意向的介入对数据质量的影响。但是在研究之中,排除被研究者的主观参与而对其行为的监测存在很多问题。首先,社会学的研究对象是社会现象,个人的行为与社会现象是两个不同的概念,仅仅依靠观察个人的活动轨迹并不能说明发生了某种社会现象。其次,当我们利用行为监测来获得可供研究的经验数据时,数据的完整性依靠于我们监测的手段和方法的可及性与适用性,大数据可能无法监测到完整信息。因此在现有手段和技术的条件下,直接向被研究者询问的问卷法,依然是最有效的调查方法。再次,虽然大数据的使用者声称用监测其行为的方式替代了被研究者的自我叙述,避免了其主观意志的干扰,但是在互联网的虚拟环境下,数据化的信息有很大一部分来自于被研究者的键入,他们可能会胡乱填写一些错误信息,那么这种利用互联网大数据的调查方法比面对面的问卷调查更加难以保证材料的真实性。
2、研究对象的局限性
大数据方法将总体作为样本避免了随机抽样过程中的抽样误差的产生,能够精确地反映总体的变化趋势,它能够获取的“总体”本身是存在偏差的。首先,由于大数据抓取方式的特殊性,研究者的分析可能产生系统性偏误。也就是说,研究者仅能获得“能够被抓取”的信息,而大量不能被抓取的信息则被排除在了总体之外。第二,即使在同一数据收集平台上,由于不同的个人活跃性不同,其信息被抓取的概率也不同,因此这些大数据的形成既不是抽样,也远非随机,而是具有极大的偶然性。
3、变量关系的真伪问题
一般情况下人们在使用大数据时仅仅关注两个事件的相关关系。而对社会学研究来说,研究者需要描述特定社会现象的变异,再通过了解该社会想象与其他社会现象(变量)的因果关系,为该现象的变异提供解释依据。所以当我们试图用大数据作为材料来进行解释社会现象时需要非常谨慎,可能两个具有高度统计相关的变量并不具有社会学意义上的因果关系。
第一,在一些领域应用的大数据变量间的关系为虚假关系,在使用大数据分析两个变量关系时往往需要控制其他变量,以达到辨别相关关系真伪,进而对社会现象进行因果解释的目的。第二,由于大数据旨在一个较大的数量级上关注两个变量变异的总体趋势预测,所以往往忽视样本内部个体之间的差异,试图用一个变量完全解释另一个变量的变异,导致层次谬误。第三,利用大数据方法获取资料是否要进行显著性检验、应该如何进行相关检验,依然存疑。一方面,大数据方法声称其样本即总体,那么既然直接分析总体趋势的变化则可以免去显著性检验的过程。但大数据方法能够获取到的“总体”和作为研究对象的“总体”总是存在着错位,大数据“总体”(样本)的获取也并不是采用概率抽样,所以该不该进行显著性检验的问题就摆在了研究者面前。另一方面,即使暂且认为大数据需要进行显著性检验,通常显著性检验是针对正态分布的较小样本而进行的,样本规模会对显著性检验的结果产生影响,而大数据由于样本规模庞大,所以在分析的过程中很容易发现统计显著性,那么就有可能导致这样一种错误:被发现变量之间的关系是偶然出现的而并不具有任何规律性,却仅仅由于庞大的样本量而被证明具有显著性。
4、数据缺失问题
不管是辨别相关关系的真伪,还是避免层次谬误,都离不开数据本身包含的变量的规模,只有在数据包括足够丰富的其他变量时,我们才能够引入或者控制这些变量,已达到解释因变量变异的目的。社会学研究需要的是多变量的数据矩阵,而不是样本庞大但变量单一的大数据。然而做到这一点并不容易。第一,如果一个大数据样本量巨大,但只包括单一的变量,那么只能对这个大数据中的这个变量进行描述统计,则这个大数据不能作为社会学分析的材料,如果研究者想要使用这些数据,需将该大数据与其他数据库进行对接,以此获得较多的分析所需的变量。第二,一些网络大数据由于其获取形式的非常规问题,导致数据本身的模糊性和混杂性,致使不可避免地出现数据缺失的情况,面对海量的缺失数据,任何删除和填补的补救措施都会对分析的结果产生影响,因此关键变量的大量数据缺失使得任何统计分析的结果都存在偏误。
总之,大数据近年来的广泛应用,大大拓展了社会学的理论视野。然而,任何单一范式中的理论与方法都有其适用性和解释边界。大数据将社会生活数字化、数据化、定量化,认为社会生活的本质是由信息构成的,主张测量一切,实质上是用一种科学主义简化论的世界观来看待社会生活。社会学是一门多研究范式的学科,以统计分析为特征的大数据方法,充其量只能作为社会学诸多研究范式中的一种,并不会带来社会学的范式革命。大数据不是“告诉”了我们世界如何运作,而仅仅是呈现给我们需要解读的材料,如何对数据进行理解与诠释,还需要具有一定知识结构和理论背景的研究者发挥社会学的想象力。它只是我们认识世界的工具,并不能代替研究者的理性思考,也不会带来社会学研究范式的根本转变,因此神化大数据的诸多论断都是不可取的。
作者:江苏省社科院社会学所鲍雨博士