日前,拜读了《第一财经日报》记者采访中国改革基金会国民经济研究所副所长
一、由“滚雪球法”调查得出的结论受主观因素影响较大
报道中提到,研究人员认为滚雪球法抽样调查取得的数据具有较高的可信度,但是,这一结论是如何得来的则缺少说明。试想,这些不愿意向统计局调查员透露自己实际收入的高收入人群会仅因为调查员是熟人就如实相告?这显然与中国几千年来的传统不相符,怕露富是常态,对熟人恐怕也是如此。
二、调查城市和调查样本的选择方法存在主观性
根据抽样理论,概率抽样是推断总体的基础。用非概率抽样(主观选择)获得的样本,仅能代表样本群体本身,若用其推断总体一般无法确定结论的可靠性,所以,使用这样的结果需要谨慎小心。
报告中强调,为增加代表性,本年度调查比2007年的调查增加了调查城市和调查样本,但我们无法看到19个省份(包括直辖市)的64个调查市和14个调查县城及建制镇的4909个样本家庭是如何抽选的。实际上,该课题所选城市较国家的城镇住户调查来说更多的集中于东、中部地区和大中城市,同时,有意识地增加了居住在较大规模城市、具有较高学历以及从事经营性活动和白领职业的人群比重,虽然其表明“在调查中我们使用的分析方法,使这种分布的差异不会影响到对全国城镇居民人均收入分布的推算结果”,但实际上,基于这样的样本所做的推算无疑将会高估居民收入。
我国现行城镇住户调查是按照随机抽样原则,在全国抽选了476个调查市县的65000个调查户进行居民收入与消费调查。调查市县采用分层随机抽样的方法确定。首先,将每个省(区、市)内的市县划分为三层:大中城市(地级和地级以上的城市)、县级市和县城(镇),按各层城镇人口占全省(区、市)城镇人口的比例来分配每层的样本量;其次,在各层内按市县城镇职工年人均工资水平从高到低排队,用与人口规模大小成比例的概率抽样抽取所需数量的调查市县,并根据抽中的次数确定调查市县的样本量。在调查市县内采用两步抽选调查户。第一步,按照多阶段、随机等距方法,抽选一相样本(俗称大样本)开展城镇居民基本情况抽样调查;第二步,从一相样本(或大样本)中按照家庭人均收入排队,等距抽选出一个小样本,作为常规调查户,开展记账工作。每个调查户都可以计算入样概率,调查样本数据可用来推断总体。国家统计局按照上述方法对调查样本的代表性进行了测算,结果表明65000户样本量对全国和分省(区、市)有较高的代表性,在置信度为95%时,主要收支指标的抽样误差(不含漏报、少报等产生的非抽样误差)在5%以内。从理论上讲,国家组织的常规住户调查方法有着较严密的科学依据,是国际上普遍认可的。
三、恩格尔系数法在当今的中国似不足以作为推断居民收入的主要依据
该项研究中所采用的一个很重要的分析方法就是基于“在相同经济背景下具有相同恩格尔系数的两组居民,应当具有大体相同的收入水平”的判断来推算收入系数,并由此来校正城镇居民的收入数据,即所谓的“恩格尔系数法”。这样做是否合理呢?
恩格尔系数是指食品消费支出在消费总支出中所占的比重。一般情况下,恩格尔系数越低,代表居民生活水平越高。但是,我们不能单纯地根据恩格尔系数的大小来测算居民收入的高低。主要原因是,处在市场化进程中的中国,其消费结构与发达国家较为稳定的消费结构相比变动较大,而且中国地区分布广阔,不同地方的居民饮食结构和习惯存在明显的差异。例如,从2008年36个大中城市居民的恩格尔系数来看,广州市为33.7%,上海市为36.6%,而呼和浩特市和长春市分别为32.2%和32.4%。很明显,我们不能由此推断广州和上海市居民的生活水平比呼和浩特市和长春市低。广州和上海两市恩格尔系数高的具体原因是:当地居民偏向于在吃上多花钱,在外饮食的支出远高出全国平均水平。我们再看经济背景相近的东北三省,2008年辽宁、吉林和黑龙江城镇居民恩格尔系数分别为39.0%、34.0%和36.3%,三者差异较大,我们并不能得出吉林城镇居民生活水平就比黑龙江、辽宁要高的结论。事实上,辽宁、吉林和黑龙江三省2008年城镇居民人均可支配收入分别为15836元、13606元和12264元,辽宁反而要高些。
除收入水平、生活习惯因素外,恩格尔系数还受其他因素的影响。恩格尔系数的变化是多因素影响的结果,不能单把这一变化归结为收入因素一方面的影响。从长期趋势看,恩格尔系数与收入水平呈负相关性是正确的,但是,不能由此简单地推断:在短时期内(报告中是一年内),在相同经济背景下,有相同恩格尔系数的家庭就有相同的收入水平的结论。
四、通过外部数据验证隐性收入的严谨性值得考虑
课题研究中采用居民购房、汽车拥有量、出境旅游等数据对住户调查的收入数据进行验证,对于我们加强各种统计调查数据之间的关联性评估很有借鉴意义,但是,文中在使用外部数据进行验证时,对口径、范围、概念的一致性处理方法不够严谨,有待于进一步探讨。这些外部数据很多是无法清楚地区分是否属于居民拥有,比如储蓄存款,就不能清楚区分哪些属于居民储蓄?哪些属于公款私存?对于购房,也无法确切区分,哪些属于居民购买?哪些属于单位购买?对于股市私人投资,也无法区分,哪些属于居民投资?哪些属于企业投资?哪些属于国外资金?在进行收入比较时,把居民与私营企业,把货币收入与所有者权益增加混为一体,这样做势必会高估比较差异。
房价收入比在中国的合理界限为3年的提法也有待于进一步探讨。房价收入比是一个有严格内涵的概念,具体应用时要注意其到底是什么情况下的房价收入比。在西方,房价收入比有新建住宅的(新房交易),也有旧有住宅的(二手房交易)。我国的房价收入比的统计尚无如此完备的信息,在市场化进程不断加快的中国,房价收入比的合理界限到底为多少?理论界对此存在着诸多争议。而该研究援引国际经验说明住宅的平均价格一般不超过居民家庭平均年收入的3倍,并根据3倍的房价收入比推算出已经购买商品住宅的家庭收入一般在10万元以上。这一结论与实际有很大的出入。举个例子,假如某家庭购买了150万元的住房,我们就推断该家庭的年收入大约就在50万元以上,对比身边的实际买房者,此现象并不多见。
根据联合国公布的有关资料,1998年对96个国家的统计结果表明,这些国家的房价收入比区间为0.8~30,平均值为8.4、中位数为6.4。不同国家房价收入比的离散程度相当大。换言之,依照购房者的家庭年收入应当不低于房价的三分之一这样一个尚有待于证明的假设来估算有房户的家庭年收入,其数据的可靠性、准确性有待进一步验证。更何况,当前在一些大城市,买房者特别是年轻购房者往往非一己之力,而是倾尽两三家之力买房,若以此推定购房者的家庭收入可能有些武断。
五、调查问卷中一些意向问题的设置缺乏中立性
在该项调查中,研究者设计了“如果一个不认识的统计局调查员来找您进行家庭收入和消费调查,您愿意把您的家庭年收入全都如实告诉他/她吗?如果不愿意,您愿意告诉他/她的收入是多少?”的问题,这带有明显的倾向性,由此得出调查者收入水平越高,隐瞒收入的倾向和隐瞒的程度就越高。其中,最高收入组中有高达70%的被调查者表示不愿意报告真实收入,他们表示愿意报告的收入只相当于他们真实收入的34%。
显然,这样的问卷设计具有较为明显的诱导性,也不符合社会科学研究活动应保持中立和不作价值判断的原则。
假设在常规城镇住户调查中比照该题设计类似的问题:如果一个你熟悉的调查公司的调查员来找您进行家庭收入和消费调查,您愿意把您的家庭年收入全都如实告诉他/她吗?如果不愿意,您愿意告诉他/她的收入是多少?相信也会得出大致相同的结论。
六、对调查推算结论的看法
由于在调查和推算方法上存在上述不当之处,故据此得出的收入结论自然也就打了很大的折扣。
我们知道居民收入统计存在某些偏差主要由两方面原因造成:一是调查样本的抽样误差;二是调查过程中的非抽样误差。对于抽样误差可以进行有效控制,一般通过扩大样本量、改进抽样方法等手段来完成。而对于非抽样误差,其中由于覆盖范围、指标定义、问卷设计、采集手段、数据处理程序等产生的非抽样误差可以通过改进方法来缩小,其中由于调查户配合程度下降,比如拒绝调查、漏报和少报现象增多,目前还缺乏比较有效的手段。在西方国家多数使用个人收入所得税数据对居民收入调查结果进行评估校正,而我国还缺乏比较完善的个人收入所得税资料,无法使用此方法。目前,我们正在组织开展全国范围的城镇住户大样本调查,希望通过更大的样本量、较简单的问卷、较高的回答率来获得高收入户的参与比例,同时,对无回答住户搜集其住房、社区环境等辅助资料来评估常规调查户样本结构偏差。我们也计划对常规调查户开展一些无记名的邮寄问卷调查来比较其在记账过程中的漏报、少报收入比例情况,并依此来评估全国居民的调查收入偏差程度。
(作者单位:国家统计局城市司)
