近几十年来,社会学定量分析方法取得巨大发展,但大量的社会学实证研究囿于研究设计、数据质量和模型设置,仅仅停留在统计回归的描述阶段,缺乏基于因果判断的解释能力。以谢宇、温希普(Christopher Winship)、索布尔(Michael Sobel)、摩根(Steve Morgan)和莫维(Ted Mouw)等为代表的社会学家,强调社会学分析必须基于反事实因果关系框架,重视回归分析中的模型设置问题;而以索伦森(Aage B. S?覬rensen)、波东(Raymond Boudon)、埃尔斯特(Jon Elster)和赫斯特洛姆(Peter Hedstrom)为代表的学者,则强调把厘清社会机制、社会过程和统计推断结合起来。虽然他们侧重点各不相同,但都强调解释性机制或因果推断是社会学分析的目标。此外,对政策研究而言,也只有因果分析才能预测事件的发生条件并制定出干预措施中的控制手段。
内生性问题影响因果判断
当前主流定量社会科学研究领域中,因果关系的判定主要基于反事实框架。即一个影响因子或者干预对个体的因果效应,应是该个体在控制组和干预组中两个可能的结果状态之间的差异。如同“人不能两次踏进同一条河流”一样,个体的结果只能在一个组中被观察到。这样,对于该个体而言,干预结果与控制结果中必有其一是缺失数据。谢宇曾以大学教育为例说明该问题:在分析大学教育对于个体的收入是否有因果效应时,对一个上大学的学生,我们不可能获得他不上大学的情况的数据。因此,社会学定量分析中只能用平均干预效应来替代,估算一组大学生(干预组)与一组非大学生(控制组)之间的平均收入差异。但替代的前提是,干预组和控制组必须在其他收入因素上是一致的,即两组人的年龄、性别、家庭背景、智商、性格等等的平均值全部相同。一旦两组之间在某个变量“E”的均值上不一致(例如性格,往往难以采集数据),且这个遗漏掉的变量本身和解释变量又有关系,那么这样估算出来的就是有偏差的,甚至是伪相关,因果判断就无从谈起。
回归分析一般通过控制一系列变量,使两个组别具有可比性。但是,总有些无法被观察或学者没有想到的变量,导致两组之间不具有可比性。对回归方程而言,这意味着解释变量和遗漏误差项出现相关,不能满足高斯马尔可夫定理,估计参数出现偏误。在计量经济学中,该问题被称为内生性问题。由于绝大多数实证研究都是基于非实验性数据,无法保证实验组和控制组的相似性,因此所有基于调查数据的实证研究,无一例外都会受到内生性问题的困扰。而这主要源自一般性的遗漏变量偏误(如无法测量的个人能力往往被方程遗漏)、自选择偏误(如分析高等教育的因果作用,但是否接受高等教育本身是个人选择)、样本选择偏误(如分析找熟人对于求职的因果作用,但找熟人求职的这类人本身可能具有某种特性)和联立性偏误(自变量和因变量之间有双向关系)等多方面因素的影响。
既有研究对内生性问题关注不足
社会学的研究旨趣在于弄清某种机制或得出因果关系,而非局限于描述自变量和因变量之间的统计相关,所以,内生性偏误就应该成为社会学定量研究中必须直面的问题。尽管既有研究对反事实因果关系、模型识别策略的关注一直存在,但在大量的实证研究中,内生性问题往往被一笔带过,甚至不加提及。国内学者王天夫和章奇等人对社会科学领域因果分析的基本概念进行了细致的回顾,但对和因果推断紧密相关的内生性问题及其解决方案却没有进行深入探讨。
社会学定量研究中,内生性问题的解决方法可以概括为四个方面。第一,解决遗漏变量偏误。主要包括四种策略:一是利用非传统数据作为遗漏变量的替代,以控制潜在的遗漏变量;二是依赖于变量在时间维度上的差异,运用固定效应模型控制时间固定的非观测因素;三是利用组内策略,即用非时间性的组内差异来估计固定效应模型;四是使用工具变量。
第二,解决自选择偏误(是可以的)。最直观的方法是使选择行为不存在,因此随机分配是解决此问题的最佳途径,因为它可确保主解释变量和未观察因子之间没有任何关联性。解决自选择偏误的方法主要有三种:一是实验或自然实验。在社会互动研究中,外生性干扰(如自然实验、政策介入或自然发生事件)可以用来建构排除限定(即工具变量)以帮助识别模型。二种是匹配法,也即倾向评分方法(PSM)。其理念是,用尽量相似的控制组成员和对照组成员来进行比较以减少偏误。三是建立选择过程模型。
第三,解决样本选择偏误。被广泛运用来解决样本选择问题的方法是赫克曼(James Heckman)的两阶段法。该方法的主要特点是简明性。但该方法也存在二分因变量的误用、计算反向Mills比率的难度,错估标准误差,以及真实模型的修正项与其他回归量之间共线性等问题。
第四,解决联立性偏误。联立性偏误实际也可以看成是一种特殊的遗漏变量偏误,因此工具变量方法显然适用。近来研究常常采用外生性政策的干预或者对部分样本的外生干扰来充当工具变量。另外,最新的文献提出了“条件方差限定”的模型识别策略。其基本思想是:对一个既定的社会互动现象,个人结果的跨组别方差由三个因素所导致,即组群异质性方差、个体异质性方差与组群解释变量方差。如果每个组群由大小不同的次级组群随机组成,那么显然对次级组群而言,上级组群和个体的异质性方差是一样的,但它们各自的解释变量方差却不一样。这样,通过比较不同次级组群的解释变量方差,就可以识别解释变量的因果效应。
提升解决内生性问题能力
在借鉴前人研究和其他学科方法的基础上,社会学研究加强对内生性问题的解决能力,主要有四种路径。
第一,提高数据质量。无论是固定效应方程、匹配方法,还是工具变量分析等策略,都离不开高质量和丰富的调查数据。以“社会网”研究为例,以往个体的社会网数据收集仅有两层数据——被访者和被访者的朋友。在今后的调查中,除以上信息外,还应该设法对“朋友”的配偶、父母和朋友的朋友进行数据收集,构成一个三层数据体系:被访者(第一层)、被访者的朋友(第二层)与被访者的朋友的其他社会关系(第三层)。而这在本质上就为“朋友”提供了一个工具变量,即第三层作为第二层的工具变量。因为第三层变量显然和第二层有关,但如果能确保第三层“朋友”的社会关系和被访者不直接认识(比如,被访者会听说自己的朋友的某些社会关系人的信息),那么第三层变量就会仅仅通过影响第二层变量来影响第一层变量。
第二,对外生性数据的收集和使用。兄弟姐妹的数量、子女的性别、彩票号码、河流数目、政府外在政策干预等都是外生的数据,能够对社会资本研究中内生性问题的解决起到作用。特别是工具变量往往需要“灵感式”的逻辑推导,一些看似和本研究无关的变量,反而有可能成为解决内生性问题的奇兵。
第三,根据不同的数据条件,运用适当的模型。例如,如果获得面板数据,则能理想地解决时间固定效应问题,在很大程度上提高因果推断的可靠性。而较大的样本,则可以考虑匹配方法,因为它只有在大样本情况下才能获得可靠的推断。
第四,明确说明运用这些模型和识别方法所需要的假设。固定效应方程和倾向性评分匹配能够部分解决内生性问题;工具变量以及自然实验则可以在理论上全部解决内生性问题。但是,工具变量很难寻找,其外生性无法证明,且必须详细讨论弱工具变量和不合格工具变量的可能性;而实验方法具有一定的局限性。此外,如果未对内生性问题进行处理,则必须说明获得的统计参数只是一个描述性的统计关系,而不能断言是因果关系