丛书名:社会学教材教参方法系列
内容简介: 本书源于作者多年在密歇根大学教授回归分析的课程讲义,从基本的统计概念讲起,对线性回归分析的基本假定、回归中的统计推论和回归诊断做了详尽的介绍,同时还涵盖了对很多在社会科学中实际研究非常有用的内容,包括虚拟变量、交互作用、辅助回归、多项式回归、样条函数回归和阶跃函数回归等。此外,本书还涉及到通径分析、纵贯数据模型、多层线性模型和logit模型等方面的内容。
目录
第1 章 基本统计概念
1
1.1 统计思想对于社会科学研究的重要性
1
1.2 本书的特点
3
1.3 基本统计概念
4
1.4 随机变量的和与差
17
1.5 期望与协方差的性质
17
1.6 本章小结
18
第2 章 统计推断基础
20
2.1 分布
20
2.2 估计
30
2.3 假设检验
34
2.4 本章小结
48
第3 章 一元线性回归
49
3.1 理解回归概念的三种视角
50
3.2 回归模型
51
3.3 回归直线的拟合优度
58
3.4 假设检验
63
3.5 对特定X下Y均值的估计
65
3.6 对特定X下Y单一值的预测
66
3.7 简单线性回归中的非线性变换
69
3.8 实例分析
71
3.9 本章小结
76
第4 章 线性代数基础
78
4.1 定义
78
4.2 矩阵的运算
80
4.3 特殊矩阵
84
4.4 矩阵的秩
87
4.5 矩阵的逆
87
4.6 行列式
88
4.7 矩阵的运算法则
91
4.8 向量的期望和协方差阵的介绍
92
4.9 矩阵在社会科学中的应用
92
4.10 本章小结
93
第5 章 多元线性回归
95
5.1 多元线性回归模型的矩阵形式
95
5.2 多元回归的基本假定
96
5.3 多元回归参数的估计
98
5.4 OLS回归方程的解读
99
5.5 多元回归模型误差方差的估计
101
5.6 多元回归参数估计量方差的估计
102
5.7 模型设定中的一些问题
103
5.8 标准化回归模型
106
5.9 CHIP88实例分析
108
5.10 本章小结
112
第6 章 多元回归中的统计推断与假设检验
114
6.1 统计推断基本原理简要回顾
114
6.2 统计显著性的相对性,以及效应幅度
116
6.3 单个回归系数βk=0的检验
118
6.4 多个回归系数的联合检验
118
6.5 回归系数线性组合的检验
121
6.6 本章小结
123
第7 章 方差分析和F检验
124
7.1 一元线性回归中的方差分析
124
7.2 多元线性回归中的方差分析
130
7.3 方差分析的假定条件
137
7.4 F检验
138
7.5 判定系数增量
139
7.6 拟合优度的测量
140
7.7 实例分析
141
7.8 本章小结
143
第8 章 辅助回归和偏回归图
145
8.1 回归分析中的两个常见问题
145
8.2 辅助回归
146
8.3 变量的对中
152
8.4 偏回归图
152
8.5 排除忽略变量偏误的方法
155
8.6 应用举例
155
8.7 本章小结
160
第9 章 因果推断和路径分析
161
9.1 相关关系
161
9.2 因果推断
162
9.3 因果推断的问题
162
9.4 因果推断的假设
163
9.5 因果推断中的原因
167
9.6 路径分析
169
9.7 本章小结
183
第10 章 多重共线性问题
185
10.1 多重共线性问题的引入
185
10.2 完全多重共线性
186
10.3 近似多重共线性
187
10.4 多重共线性的度量
188
10.5 多重共线性问题的处理
191
10.6 本章小结
192
第11 章 多项式回归、样条函数回归和阶跃函数回归
193
11.1 多项式回归
193
11.2 样条函数回归
206
11.3 阶跃函数回归
209
11.4 本章小结
215
第12 章 虚拟变量与名义自变量
217
12.1 名义变量的定义与特性
217
12.2 虚拟变量的设置
218
12.3 虚拟变量的应用
221
12.4 本章小结
232
第13 章 交互项
234
13.1 交互项
235
13.2 由不同类型解释变量构造的交互项
236
13.3 利用嵌套模型检验交互项的存在
242
13.4 是否可以删去交互项中的低次项?
243
13.5 构造交互项时需要注意的问题
246
13.6 本章小结
248
第14 章 异方差与广义最小二乘法
250
14.1 异方差
250
14.2 异方差现象举例
252
14.3 异方差情况下的常规最小二乘估计
253
14.4 广义最小二乘法
256
14.5 加权最小二乘法
258
14.6 本章小结
261
第15 章 纵贯数据的分析
264
15.1 追踪数据的分析
265
15.2 趋势分析
283
15.3 本章小结
291
第16 章 多层线性模型介绍
294
16.1 多层线性模型发展的背景
295
16.2 多层线性模型的基本原理
296
16.3 模型的优势与局限
299
16.4 多层线性模型的若干子模型
299
16.5 自变量对中的问题
305
16.6 应用举例
308
16.7 本章小结
316
第17 章 回归诊断
318
17.1 因变量是否服从正态分布
319
17.2 残差是否服从正态分布
322
17.3 异常观测案例
324
17.4 本章小结
330
第18 章 二分因变量的logit模型
331
18.1 线性回归面对二分因变量的困境
332
18.2 转换的方式
334
18.3 潜变量方式
339
18.4 模型估计、评价与比较
340
18.5 模型回归系数解释
346
18.6 统计检验与推断
349
18.7 本章小结
351
词汇表
352
参考文献
381
后 记
386
作者简介:谢宇,美国密歇根大学Otis Dudley Duncan教授,同时也是密歇根大学中国研究中心、社会研究所调查研究中心、人口研究中心教授,北京大学特聘教授,北京大学中国社会科学调查中心学术委员会主席。2004年当选美国艺术与科学院院士和台湾“中央研究院”院士,2009年当选美国国家科学院院士。
内容简介本书源于作者多年在密歇根大学教授回归分析的课程讲义,从基本的统计概念讲起,对线性回归分析的基本假定、回归中的统计推论和回归诊断做了详尽的介绍,同时还涵盖了对很多在社会科学中实际研究非常有用的内容,包括虚拟变量、交互作用、辅助回归、多项式回归、样条函数回归和阶跃函数回归等。此外,本书还涉及到通径分析、纵贯数据模型、多层线性模型和logit模型等方面的内容。作者简介谢宇,美国密歇根大学Otis Dudley Duncan教授,同时也是密歇根大学中国研究中心、社会研究所调查研究中心、人口研究中心教授,北京大学特聘教授,北京大学中国社会科学调查中心学术委员会主席。2004年当选美国艺术与科学院院士和台湾“中央研究院”院士,2009年当选美国国家科学院院士。编辑推荐中文目录 目 录
第1 章 基本统计概念
1
1.1 统计思想对于社会科学研究的重要性
1
1.2 本书的特点
3
1.3 基本统计概念
4
1.4 随机变量的和与差
17
1.5 期望与协方差的性质
17
1.6 本章小结
18
第2 章 统计推断基础
20
2.1 分布
20
2.2 估计
30
2.3 假设检验
34
2.4 本章小结
48
第3 章 一元线性回归
49
3.1 理解回归概念的三种视角
50
3.2 回归模型
51
3.3 回归直线的拟合优度
58
3.4 假设检验
63
3.5 对特定X下Y均值的估计
65
3.6 对特定X下Y单一值的预测
66
3.7 简单线性回归中的非线性变换
69
3.8 实例分析
71
3.9 本章小结
76
第4 章 线性代数基础
78
4.1 定义
78
4.2 矩阵的运算
80
4.3 特殊矩阵
84
4.4 矩阵的秩
87
4.5 矩阵的逆
87
4.6 行列式
88
4.7 矩阵的运算法则
91
4.8 向量的期望和协方差阵的介绍
92
4.9 矩阵在社会科学中的应用
92
4.10 本章小结
93
第5 章 多元线性回归
95
5.1 多元线性回归模型的矩阵形式
95
5.2 多元回归的基本假定
96
5.3 多元回归参数的估计
98
5.4 OLS回归方程的解读
99
5.5 多元回归模型误差方差的估计
101
5.6 多元回归参数估计量方差的估计
102
5.7 模型设定中的一些问题
103
5.8 标准化回归模型
106
5.9 CHIP88实例分析
108
5.10 本章小结
112
第6 章 多元回归中的统计推断与假设检验
114
6.1 统计推断基本原理简要回顾
114
6.2 统计显著性的相对性,以及效应幅度
116
6.3 单个回归系数βk=0的检验
118
6.4 多个回归系数的联合检验
118
6.5 回归系数线性组合的检验
121
6.6 本章小结
123
第7 章 方差分析和F检验
124
7.1 一元线性回归中的方差分析
124
7.2 多元线性回归中的方差分析
130
7.3 方差分析的假定条件
137
7.4 F检验
138
7.5 判定系数增量
139
7.6 拟合优度的测量
140
7.7 实例分析
141
7.8 本章小结
143
第8 章 辅助回归和偏回归图
145
8.1 回归分析中的两个常见问题
145
8.2 辅助回归
146
8.3 变量的对中
152
8.4 偏回归图
152
8.5 排除忽略变量偏误的方法
155
8.6 应用举例
155
8.7 本章小结
160
第9 章 因果推断和路径分析
161
9.1 相关关系
161
9.2 因果推断
162
9.3 因果推断的问题
162
9.4 因果推断的假设
163
9.5 因果推断中的原因
167
9.6 路径分析
169
9.7 本章小结
183
第10 章 多重共线性问题
185
10.1 多重共线性问题的引入
185
10.2 完全多重共线性
186
10.3 近似多重共线性
187
10.4 多重共线性的度量
188
10.5 多重共线性问题的处理
191
10.6 本章小结
192
第11 章 多项式回归、样条函数回归和阶跃函数回归
193
11.1 多项式回归
193
11.2 样条函数回归
206
11.3 阶跃函数回归
209
11.4 本章小结
215
第12 章 虚拟变量与名义自变量
217
12.1 名义变量的定义与特性
217
12.2 虚拟变量的设置
218
12.3 虚拟变量的应用
221
12.4 本章小结
232
第13 章 交互项
234
13.1 交互项
235
13.2 由不同类型解释变量构造的交互项
236
13.3 利用嵌套模型检验交互项的存在
242
13.4 是否可以删去交互项中的低次项?
243
13.5 构造交互项时需要注意的问题
246
13.6 本章小结
248
第14 章 异方差与广义最小二乘法
250
14.1 异方差
250
14.2 异方差现象举例
252
14.3 异方差情况下的常规最小二乘估计
253
14.4 广义最小二乘法
256
14.5 加权最小二乘法
258
14.6 本章小结
261
第15 章 纵贯数据的分析
264
15.1 追踪数据的分析
265
15.2 趋势分析
283
15.3 本章小结
291
第16 章 多层线性模型介绍
294
16.1 多层线性模型发展的背景
295
16.2 多层线性模型的基本原理
296
16.3 模型的优势与局限
299
16.4 多层线性模型的若干子模型
299
16.5 自变量对中的问题
305
16.6 应用举例
308
16.7 本章小结
316
第17 章 回归诊断
318
17.1 因变量是否服从正态分布
319
17.2 残差是否服从正态分布
322
17.3 异常观测案例
324
17.4 本章小结
330
第18 章 二分因变量的logit模型
331
18.1 线性回归面对二分因变量的困境
332
18.2 转换的方式
334
18.3 潜变量方式
339
18.4 模型估计、评价与比较
340
18.5 模型回归系数解释
346
18.6 统计检验与推断
349
18.7 本章小结
351
词汇表
352
参考文献
381
后 记
386
英文目录暂无英文目录序 言序 言
“社会学不像物理学。唯独物理学才像物理学,因为一切近似于物理学家对世界的理解都将最终成为物理学的一部分。”
——奥迪斯·邓肯
我一直认为,社会科学与物理学存在本质上的差别。社会科学的分析单位是异质性的或彼此区别的,而物理学的分析单位则被假定为同质性的或可相互替换的。我将社会科学这一重要而普遍的属性称作“变异性原理”(Variability Principle)。
由于变异性原理的存在,社会科学要发掘出“放之四海而皆准”的规律注定是困难的,甚至是不可能的,尤其在个体层次上更是如此。正因为这个原因,社会科学似乎是一门软性的、不严谨的科学。这也是许多学者一直对社会科学中的定量方法提出质疑而偏好定性方法的主要原因。
然而,那些主张定性方法的学者并没有意识到,使定量方法遭到质疑的特性——变异性——也同样使定性研究遭到质疑,甚至问题更为严重。例如,因为每一个分析单位都不同于另一个分析单位,建立在单一个案基础上的定性研究得出的结论很可能会因案例的选择而发生根本性的改变。
我曾说过,“尽管带有自身的缺陷、局限和不完善,定量方法依然是理解社会及其变迁的最佳途径。在黑格尔哲学的意义上,那些使定量社会学不可靠、成问题的特征恰恰同时使它成为研究社会现象的不可缺少的工具,即……变异性原则。变异是人类社会的本质。没有一种定量的方法,我们就无法表述这种变异性。其他可供选择的方法,比如思辨、内省、个人体验、观察和直觉,确实也能增进我们的理解。不过,我大胆地提出,它们能够起到补充作用,但不应取代定量方法成为当代社会学的核心”。
本书所介绍的统计方法常用于描述社会现象的属性、规律性以及变异性,这些方法可被纳入回归分析这一广义范畴中。毋庸讳言,这些方法都有缺陷,因为它们都难以精确地反映复杂的社会现实,但这并不妨碍它们成为社会科学研究的有用工具。有的学生或许会有这样的错觉,即社会科学研究中存在某种完美的方法,或者某些方法本质上优于另一些方法。事实并非如此。没有一种完美的方案可以解决社会科学中所有方法论上的难题,也没有哪种方法能在一切情境中都必然地优于另一些方法。最好的方法就是最适用于既定研究情境的方法。
所有社会科学中的统计方法都存在这样或那样的缺陷。因此,对我们而言,重要的是能够在将这些方法有效地运用到研究情境之前就知道它们的局限以及为什么会有这些局限。在本书中,我们特别关注了社会科学应用中各种统计方法的局限性以及在适用条件下改进这些方法的途径。权衡取舍在实践中普遍可见,因此,我希望学生们能够以灵活的思维来学习这些统计方法。通常,方法论上更大的解释力来自更多的信息——或是更丰富的数据,或是更强的理论基础。1996年,我在《美国社会学杂志》上评论Charles Manski 发表于1995年讨论社会科学中识别问题的著作时,曾指出,“当观测数据不足时,我们只有通过强假定来获得清晰的结果。统计学中没有免费的信息。要么你收集它,要么你假定它”。
本书是根据我于2007年夏季在北京大学—密歇根大学学院举办的“调查方法与定量分析实验室项目”中教授回归分析课程时的讲义编写而成。我知道,目前中国国内有关回归分析的教材、专著和译著不胜枚举,这些著作都为中国学生与研究者了解和学习回归方法提供了有益的帮助。我认为,在社会科学领域,一本好的定量研究教材,既要涵盖量化研究与统计方法的重要理论,又要将方法原理与示范案例紧密相联,与此同时,对中文教材而言,最好还能结合中国的实际调查数据,以帮助读者对这些方法有更全面、更深入的了解。这本书是以CHIP88数据作为主要的示例数据,之所以选用该数据,一方面是因为我在1996年与韩怡梅合作的文章中使用过这一数据,对其有较为详细的了解;另一方面是因为CHIP88数据也是许多其他学者做中国研究时常用的数据来源,因为该数据的全部原始个案和相关技术文档均可公开获得。我希望,借助对CHIP88原始数据所做的实例分析,读者既能将回归方法的基本原理和应用场合牢记于心,同时也能结合中国的实际研究数据来从事规范的社会科学定量研究。
这本书是许多人共同努力的成果。王广州教授在协调初稿写作阶段起了重要作用,我课堂上的六位学生——宋曦、刘慧国、王存同、李兰、傅强、巫锡炜,根据讲义编写了本书初稿中的部分章节。作为本身就有很强学术取向的学生和学者,这七人均是本书的合作者。我也从於嘉、赖庆、穆峥、周翔、黄国英、陶涛、任强、张春泥、程思薇在本书初稿读校的参与中获益良多。后记中细述了他们对本书所做的贡献。我对这些参与者的出色工作,还有历时三年的编写过程中他们同我的友谊以及对我的支持表示深深的感谢。对本书可能仍然存在的纰漏,我将独立承担责任。
本书的出版也得益于社会科学文献出版社的支持与鼓励。我在此感谢该社的谢寿光社长和杨桂凤编辑。正是他们致力于为中国社会科学界出版学术书籍的决心与付出鼓舞着我完成此书。
在此,还要感谢北京大学长江学者特聘讲座教授基金和密歇根大学Fogarty基金的资助。
最后,我还要感谢在我学术生涯中历经的无数老师与学生。他们让我知道,我对回归分析的理解仍旧有限。如果要论及此书的价值的话,它反映的是那些曾与我合作或共过事的人的集体智慧。我深知,与他们的合作和共事是我的幸运。
谢 宇
于安娜堡,2010年5月20日