北京农学院 沈文华副教授
同志们:
为了全面了解农民的教育培训需求,总结农民教育培训的成功经验,更多、更快、更好地培养造就新型农民,推进社会主义新农村建设,农业部农民科技教育培训中心和中央农业广播电视校决定在全国范围组织开展农民教育培训基本情况调研。其意义重大,对这次调查的要求比较严格,请各地的同志们能严格地按照有关通知和五个附件的要求,认真组织、以科学的态度严格地贯彻实施。
此次调研活动采取点面结合的方式进行。通过面上调研反映全国农民教育培训需求的总体情况和趋势,结合重点县的点上调研,解剖麻雀,对农民教育培训的全过程进行系统分析,
面上调研以问卷调研为主。重点是通过问卷摸清农民素质状况和农民教育培训的需求。调研范围覆盖全国31个省自治区、直辖市(以下简称省)。按照人均纯收入,参照人口,随机起点对称等距抽样。其中:4个直辖市和海南省、青海省、甘肃省、宁夏回族自治区、新疆维吾尔族自治区、西藏自治区各抽取3个县;其余21个省各抽取5个县。每个被抽中的县,抽取3个乡;每个被抽中的乡,抽取3个村;每个被抽中的村,抽取9家农户。总计135个县、405个乡、1215个村、10935户农民参加此次问卷调查。
今天我的讲座,主要从技术的角度,向同志们介绍一下这次面上组织问卷调查的方法,以及在问卷调查、问卷录入以及各地汇总工作中应注意的一些问题。
主要内容为:
u 抽样调查框的设计原理
u 四级样本框的抽样组织方法
u 组织抽样调查中应注意的事项
u 问卷调查、录入、汇总中应注意的问题
一、抽样调查框的设计原理
1、什么是抽样调查
抽样调查是按照随机原则从总体中抽取部分样本单位进行调查,并根据样本的数据资料,科学地推断总体数值情况,分析总体信息资料的一种调查方式
2、为什么说抽样调查是最严密、最具有的科学性的一种调查组织形式
抽样调查的理论根据是概率论和数理统计中的抽样分布和抽样推断理论。在抽取样本的时候,要严格地按照随机原则抽取样本,通过严密的设计和实施控制,取得尽可能完善的调查样本,使之能够在一定概率保证下进行有把握的估计。
3、抽样的随机原则
调查网点的抽选,必须坚持随机原则。所谓随机原则,是指抽取样本的时候,调查对象能否被抽中是随机的、不以人的意志为转移的。每个调查对象,在样本的抽取过程中都有被抽中的可能性,其被抽中的概率是相等的。
4、抽样的组织形式
(1)纯随机抽样
(2)分类抽样(分组抽样、分层抽样)
各组抽取的单位数的确定,理论上应按照各组方差的大小,按比例抽取,即方差大的组多抽一些,方差小的可以少抽一些。但实际上各组的方差大小往往很难得知,因此,通常采用按各组单位数占总体单位数的比例来确定,哪组单位数多,应多抽样,单位少则少抽样。各组抽取的样本单位数计算公式为:
(3) 等距抽样
第一种 半距起点,等距抽样
例1:某地区有30个乡镇企业,现按每个乡镇企业职工人均月工资收入高低顺序排队,等距抽取5 个乡镇企业进行职工人均月工资收入的抽样调查,方法如下:
Ⅰ 收集该地区各乡镇企业人均月工资收入
Ⅱ 按人均月工资收入高低排队,
Ⅲ 当样本单位数为5时,计算抽样距离:
抽样距离=30÷5=6(即每六个企业中将有一个企业作为样本进行抽样调查)
Ⅳ 半距起点,等距抽样
第一个样本单位:抽样距离的一半:6÷2=3,即第三个企业(16号)作为第一个样本,参加调查
第二个样本单位:从第一个样本单位的序号开始,加上一个抽样距离,即为第二个样本单位:3+6=9,第九个企业(27号)作为样本单位参加调查
第三个样本单位:从第二个样本单位的序号开始,加上一个抽样距离,即为第三个样本单位:9+6=15,第十五个企业(1号)作为样本单位参加调查
以此类推,第四个单位为21个企业(17号),第五个单位为第27个企业(15号)
用图形表示:









▲ ▲ ▲ ▲ ▲
第1个样本, 第2个样本 第3个样本 第4个样本 第5个样本
N=30,n=5,抽样距离=N÷n=30÷5=6
|
序号 |
乡镇企业编号 |
人均月工资收入(元) |
序号 |
乡镇企业编号 |
人均月工资收入(元) |
|
1 |
4 |
335 |
16 |
19 |
454 |
|
2 |
26 |
341 |
17 |
23 |
458 |
|
3 |
16 |
364 |
18 |
30 |
464 |
|
4 |
25 |
370 |
19 |
28 |
464 |
|
5 |
5 |
379 |
20 |
10 |
469 |
|
6 |
14 |
392 |
21 |
17 |
473 |
|
7 |
11 |
406 |
22 |
24 |
474 |
|
8 |
8 |
414 |
23 |
18 |
474 |
|
9 |
27 |
420 |
24 |
3 |
475 |
|
10 |
6 |
422 |
25 |
21 |
484 |
|
11 |
29 |
430 |
26 |
13 |
489 |
|
12 |
20 |
432 |
27 |
15 |
492 |
|
13 |
22 |
439 |
28 |
2 |
495 |
|
14 |
12 |
440 |
29 |
7 |
507 |
|
15 |
1 |
450 |
30 |
9 |
512 |
第二种 随机起点,对称等距抽样
抽取的样本单位数为偶数,r 2k-r 2k+r 4k-r 4k+r
R为随机起点数,k为抽样距离,
k=总体单位数÷样本单位数
或 k=抽样对象的总距离(总长度、总面积等) ÷样本单位数
仍以上例资料示范,30个乡镇企业要等距抽取6个样本,抽样距离K=5,按照随机起点,对称等距抽样,假定第一个随机起点数r=2,则计算出的样本单位分别为:
r=2
2k-r=2*5-2=8
2k+r=2*5+2=12
4k-r=4*5-2=18
4k+r=4*5+2=22
6k-r=6*5-2=28
抽取的样本单位为奇数:(中间项以前各项的抽取同偶数项)
① 中间项为奇数,如5、9、13、17、21项数据,中间项为奇数项,
可用(n+1)/2确定中间项,以后以中间项的序号的k倍+r,然后转入下一个奇数项的k倍-r,k倍+r
仍以上例示范,从30个企业中抽取5个企业进行调查,抽样距离K=6.
首先确定最中间的样本单位:即第三个样本单位取之所有被调查单位的最中间的单位,(n+1)/2=31/2=15.5,即可以选择第15号或第16号单位为中间项被抽中的单位。
在中间项以前的抽取单位仍采用偶数项的抽取办法:r起点,2k-r
假定随机起点数仍为2(号),
则第二个抽取的单位序号为2k-r=2*6-2=10(号)
第三个单位已经确定,为最中间的单位:序号第15号或第16号的单位(随机确定),
第四个单位为中间项的序号的k倍+r,即:3K+2=3*6+2=20(号)
第五个单位为5K-r=5*6-2=28(号)
抽样结果:顺序号为第2、10、15(或16)、20、28的企业将被作为抽样调查单位。
② 中间项为偶数,如3、7、11、15、19、23项数据,中间项为偶数项,
可用(n+1)/2确定中间项,以后以中间项的序号+1的k倍-r、k倍+r、下一个奇数项的k倍-r,k倍+r
仍以上例示范,从30个企业中抽取3个企业进行调查,抽样距离K=30/3=10
首先确定最中间的样本单位:即第3个样本单位取之所有被调查单位的最中间的单位,(n+1)/2=31/2=15.5,即可以选择第15号或第16号单位为中间项被抽中的单位。
在中间项以前的抽取单位仍采用偶数项的抽取办法:r起点
假定随机起点数为5(号),
第二个单位已经确定,为最中间的单位:序号第15号或第16号的单位(随机确定),
第三个单位为中间项的序号+1的k倍-r,即:3K-r=3*10-5=25(号)
抽样结果为:第5号、第15(或16号)、第25号为抽中的调查单位。
随机起点、对称等距抽样的作用
第一、保证样本的抽选服从随机原则,使样本对总体具有较好的代表性
第二、由于r为随机起点数,因此可以在抽样距离的范围内抽取多套方案供比较,从中选取一套样本进行调查。这样既保证抽样的随机性,同时便于开展调查工作。
二、 四级样本框的抽样组织方法
1、按照中央校下发的《农民教育培训基本情况调研活动方案》以及附件的要求,根据各省、市、自治区样本分配名额组织四级抽样。
2、采用随机起点,多阶段对称等距抽样方法,确定每个省的样本县、样本乡、样本村。
3、深入样本村进行调查研究,根据分层抽样的方法,对村中相对高收入户、中等收入户和低收入户进行分类,在每类内部按纯随机方法抽取调查农户。
4、按照抽样框的要求进行抽样举例
以2004年北京郊区农村住户人均纯收入为抽样依据
|
区县名称 |
人均纯收入(元/年) |
区县名称 |
人均纯收入(元/年) |
|
朝阳区 |
10261 |
昌平 |
6752 |
|
丰台区 |
|