对2010年人口普查数据准确性的估计

首页 > 时事 > 正文
2021-05-12

发表自话题:第七次人口普查数据结构

    我国以2010年11月1日零时为标准时点进行了第六次全国人口普查,《2010年第六次全国人口普查主要数据公报(第1号)》结果显示全国总人口为133972万人(国家统计局,2011)。

  2012年5月,国家统计局出版了《中国2010年人口普查资料》(国务院人口普查办公室、国家统计局人口司,2012),公布了机器汇总从每个人常住地汇总的总人口133281万人(不含230万现役军人,不含难以确定常住地的465万人)以及各种结构数据,这为研究中国的人口问题提供了详细的资料。为便于人们准确认识和使用普查数据,本文将利用人口分析技术和与历史数据、行政记录资料比较等方法,对这次普查机器汇总数据进行评估,对主要数据的准确性做出估计。

  1 分年龄人口的准确性

  人口年龄构成是人口的最基本结构,人口年龄构成是否存在偏差是衡量数据质量的关键。

  1.1 10岁及以上人口的准确性

  与2000年人口普查的年龄结构进行比较,2010年普查的a+10岁人口应为2000年普查a岁的存活人口(a>=0),即为留存率。一般情况下,人口留存率应严格小于1,并随年龄的增大而减小;人口留存率还应该围绕生命表留存率曲线上下波动(翟振武等,1989)。

   

   

  图1和图2绘出了男性人口和女性人口2000~2010年的留存率曲线(在计算普查的留存率时,均加入了现役军人)。可以看出留存率曲线低年龄波动较大,其余年龄在生命表留存率曲线上下小幅波动。从分年龄段看:

  (1)10~19岁。男女两性留存率均大于1,即2000年0~9岁的人活到2010年不仅没减少反而增加了,这主要是2000年0~9岁人口的漏报所致。

  (2)20~45岁。男女两性留存率既有大于1的也有小于1的,但基本围绕生命表留存率曲线波动。男性22~29岁几个年龄留存率均低于生命表留存率,而20岁、21岁及31~40岁留存率又大于1或高于生命表留存率,说明男性22~29岁可能存在漏报,而20岁、21岁及30~40岁又可能存在重报;女性在20~25岁、30~34岁也出现了大于1的留存率。如果假定2000年10~35岁人口数是准确的,以2000年10~35岁为基础按留存率推算到2010年,再与这次普查20~45岁人口比较,便可估算出2010年20~45岁人口有漏也有重,但总体上表现出重报多于漏报。其中男性净重报31万人,女性净重报572万人,共净重复登记了604万人,占20~45岁人口的1.1%。

  青壮年人口的重复登记,主要是两头登记的信息不一致造成的。一部分人既在现住地被确定为常住,又在户口登记地被确定为常住,从而造成两边重复统计为常住人口。但这种重复的现象并不严重。

  (3)46岁及以上。46岁及以上各年龄留存率均与生命表留存率吻合的比较好,说明与2000年普查的一致性较强,也表明46岁及以上人口的准确性较高。

  1.2 0~9岁人口的准确性

  根据国家统计局历年公布的出生人数,推算出存活到2010年的人口,与普查登记的0~9岁人口比较,可以评价低年龄人口的准确性。即2001年的出生人数存活到2010年应为2010年普查的9岁人口,2002年的出生人数存活到2010年应为8岁人口……2010年的出生人数存活到普查时点为0岁人口。

  由表1可以看出,用出生人口推算到相应年龄(0~9岁)的人口数,累计比普查多1107万人。说明普查0~9岁低年龄人口漏报1107万人,漏报率为7.56%。   

  低年龄人口漏报,是中国人口普查面临的主要问题之一(《人口研究》编辑部,2009、2011)。2000年和2010年人口普查,都不同程度地出现了后一次普查10~19岁人口明显多于前一次普查0~9岁人口的问题。通过2000年人口普查我们已经看到1990年0~9岁人口漏报1254万人,占1990年0~9岁实际登记人口的5.81%(张为民、崔红艳,2002)。同样地,2010年10~19岁人口明显多于2000年的0~9岁人口。

  将这次普查10~19岁人口按照留存率回推后与2000年普查0~9岁的人口进行比较,我们发现,2000年0~9岁累计漏报1689万人(见表2),占2000年0~9岁实际登记人口的10.61%。也进一步说明2000年调查环境比1990年时差,低年龄漏报比1990年严重。

   

  以上分析可以看出,近几次人口普查低年龄人口均存在漏报,主要原因是群众对超生的孩子往往不愿意如实申报,以便避开超生处罚造成的。

  2 分性别数据的准确性

  同年龄构成一样,性别结构也是人口的最基本结构之一,它是衡量数据质量的另一关键指标。

  2.1 10岁及以上人口性别比的准确性

  采用同队列性别比比较的方法(国家统计局人口司,1992),对2010年和2000年同一出生队列人口的性别比进行比较,判断性别数据与2000年登记的一致性。一般地,由于各年龄死亡率男性都比女性高,同队列性别比应该呈下降趋势。而又由于青壮年年龄死亡人口较少,两性差异较小,所以青壮年年龄同队列性别比曲线应该比较接近;高年龄死亡人口相对较多,且两性差异较大,同队列性别比随年龄增大差异加大。

  图3给出了2000~2010年同队列性别比曲线图,从中可以看出:

  第一,10~19岁性别比下降明显。2010年10~19岁性别比为111.85,与2000年0~9岁性别比(117.45)比较下降了5.60。结合第一部分对年龄结构的分析,如果假定2010年10~19岁年龄性别登记准确,说明2000年0~9岁性别比被高估了,而主要原因是2000年低年龄人口漏报女性多于男性,对性别比的影响达5.40个百分点(117.45~112.05)(见表3)。

  第二,20~29岁性别比下降较为明显。2010年20~29岁性别比为102.36,与2000年10~19岁性别比(107.64)比较下降了5.28。结合第一部分对年龄构成的分析,不难看出,2010年20~29岁性别比较低是由于这一年龄段男性人口漏报造成的。

  第三,30岁及以上人口性别比与2000年同队列性别比相比呈现差距逐渐加大的趋势,符合性别比下降的人口趋势。

   

   

  2.2 总人口性别比

  2010年人口普查总人口性别比为105.20,比2000年的106.67有所下降。通常情况下,受人口由年轻型向老年型过渡以及男性死亡率高于女性的影响,总人口性别比呈逐步下降趋势。尽管20世纪90年代以来出生人口性别比持续偏高,但是,近年来中国老年人口比重不断提高,它对总人口性别比所起的降低作用大于出生人口性别比偏高对总人口性别比所产生的上升作用。综合这些因素,并结合前面对各年龄性别比的分析,总人口性别比略低于2000年,达到105.20是比较符合实际的。说明,这次普查分性别数据比较准确,尽管分年龄数据有漏报或重报,但总体看不影响性别数据的准确性。

  3 生育水平的准确性

  2010年第六次全国人口普查长表中登记了每个育龄妇女普查前一年的生育状况。根据其生育状况,获得2010年妇女的年龄别生育率,在此基础上直接计算总和生育率为1.18。这是否是目前中国真实的生育水平呢?

  3.1 相关数字之间的矛盾说明总和生育率1.18明显偏低

  普查登记长表中在普查前一年从妇女生育情况中登记的出生人口为119万人,而长表中0岁人口为130万人,推算到出生为132万人,比119万人多出10.17%,据此计算总和生育率应为1.30。

  普查登记长短表全部出生人口为1384万人,这意味着出生人口的抽样比仅为8.64%,而长表总人口的抽样比为9.55%,15~49岁育龄妇女的抽样比为9.43%,这说明长表登记的出生人口偏低,依此计算的妇女总和生育率也必然会偏低,据此推算的总和生育率应为1.42。

   

  3.2 对实际生育水平的估计

  本文第一节通过与国家统计局公布的出生人数比较,得出了2010年出生人口1384万存在漏报,漏报率为15.06%。用这个漏报率来调整总和生育率,将达到1.50。

  根据国家统计局历年人口变动抽样调查,2000~2009年出生人口在1592万~1702万之间。如果按出生人数推算,2000~2010年总和生育率在1.50~1.64之间(见表4)。说明我国已经处于比较稳定的低生育水平发展阶段,当前妇女总和生育率在1.5左右。

  可以看出,随着经济社会的发展和生活方式的转变,人们生育意愿下降,我国已经进入低生育水平阶段,低生育水平不再只是计划生育的结果。我们认为,实际调查登记的总和生育率偏低,按历年公布的出生率反映的出生和生育数据较好地反映了我国实际的生育水平。

  4 死亡数据的准确性

  2010年第六次全国人口普查登记的2009年11月1日至2010年10月31日期间的死亡人口为742万人,这一数据是否真实反映我国人口死亡水平呢?

  4.1 标准化死亡率

  根据登记的死亡人口直接计算粗死亡率为5.58‰。与2000年直接登记的5.92‰相比,下降了0.34个千分点。

  实际上,粗死亡率不但受实际死亡水平的影响,还受年龄结构的影响。为更好地反映死亡水平的变化,我们以2000年普查的人口年龄结构为标准,分别对1990年、2010年普查登记的死亡率进行标准化。可以看出,2000~2010年间粗死亡率下降了30.7%(见表5),与前一个十年相比,呈现了一个较为明显的跳动,在经济社会、医疗水平稳步发展的情况下,这种跳动显然是不合理的。

   

  4.2 分年龄死亡率

  根据分性别的年龄别死亡率对数曲线(见图4),可以看到,除了0岁以外,2010年普查的男性分年龄死亡率普遍高于女性,这符合基于生理影响的男女正常死亡规律。值得注意的是,男女分年龄死亡率的差异呈现出随年龄增长先放大后缩小的趋势。在青壮年阶段,男女两性的死亡率差异最大。

   

  从年龄别死亡率的相对变动情况看(见图5),与2000年相比,2010年低年龄人口和20~30岁人口的死亡率下降幅度较大。这种不合理的变动源自死亡人口和总人口数据的登记误差。具体来看,在低年龄总人口存在漏报的前提下,说明低年龄死亡人口的漏报更为严重;而20~30岁人口死亡率的下降主要是由该年龄段总人口的重复登记造成的。

   

  此外,在青壮年阶段,女性死亡率的下降幅度明显高于男性,这也间接造成了此年龄段男女死亡率的差异最大。青壮年女性死亡率的异常下降可能与十年来育龄妇女的生育减少或推迟有关,也可能与女性死亡人口的漏报有关。如果是漏报,为什么在此年龄段女性的死亡漏报会明显高于男性呢?目前还无法做出一个有说服力的解释,究竟是什么原因有待于进一步的研究。

  4.3 平均预期寿命

  根据普查直接登记的年龄别死亡率计算的2010年我国人口平均预期寿命将达到77.95岁,其中男性为75.65岁,女性为80.49岁。与2000年相比,分别提高6.55岁、6.02岁和7.16岁。根据联合国平均预期寿命增长模型,在预期寿命达到70岁以后,每5年增长1.5岁已经是非常快的速度。世界银行数据显示,2010年世界人口的平均预期寿命为69.6岁,其中高收入国家及地区为79.8岁。显然,我国普查直接登记的死亡人口存在明显的漏报。

  4.4 死亡人口漏报率的估计

  (1)根据2000年和2010年普查登记的总人口,可以推算出2000年0岁及以上人口到2010年已死亡7713万人,若考虑到2010年20~45岁人口还有604万人重报,这一数字可调整为8317万人。据测算,十年间低年龄人口死亡(2001年0岁、2002年0~1岁……2010年0~9岁)202万人。依此计算,2000~2010年间共死亡8637万人,平均每年死亡863.7万人,线性外推到2010年死亡人口为909万人。普查的死亡人口漏报率应为18.4%。

  (2)根据2000年生命表,采用布拉斯罗吉特模型生命表方法,估算2010年生命表,以此计算2000~2010年的平均留存率,与实际人口的留存率进行拟合(国家统计局人口司,1992)。我们可以得到2010年生命表的高、低两个结果,除个别低年龄段以外,实际人口留存率基本位于高低两个模型的平均存活率之间。对应的高模型预期寿命为75.92岁,低模型预期寿命为74.36岁,这表明2010年实际的平均预期寿命稳定在74.36~75.92岁之间。据此计算普查登记的死亡人口漏报率在13.6%~27.1%之间。

   

  综合考虑上述两种方法,经过对2010年普查的人口死亡水平进行认真分析和评估,国家统计局公布2010年我国平均预期寿命为74.83岁,这较好地反映了2010年我国人口的健康水平。

  5 对总人口的估计

  第六次全国人口普查公报发布全国总人口(31个省、自治区、直辖市和现役军人)为133972万人,它是否真实反映我国人口规模呢?

  第一,按照普查方案设计要求,2010年普查登记阶段结束后,从全国范围内直接抽取了402个调查小区的4万户、12万人进行事后质量抽查。抽查结果显示,总人口漏报率为0.12%,漏报160万人。

  第二,根据本文第一节的论证,低年龄漏报约1107万人,青壮年净重报约604万人,从而总人口应为普查从常住地汇总的133281万人加上漏登的低年龄人口减去重登的青壮年人口,再加上230万现役军人,为134014万人,与公报发布人口相差42万人。

  由以上两点可以看出2010年普查公报公布的总人口133972万人是可信的。

  6 教育数据的准确性

  人口的受教育水平是衡量一个国家人口素质的重要标志,也是反映教育事业发展状况的基本指标。

  6.1 大专及以上程度人口的准确性

  近十年来我国高等教育的发展保持快速增长态势,获得了长足的进步。2010年人口普查计算机详细汇总数据显示,大陆31个省、自治区、直辖市和现役军人人口中,具有大专以上受教育程度的人口11923万人,占8.93%。它是否反映了我国大专及以上程度人口的真实水平呢?

  以2000年人口普查公报大专及以上人口4571万人为基数,加上教育统计数据历年新增本专科人口,减去历年大专及以上程度死亡人口,则2010年全国大专及以上程度人口为12360万人(见表6)。因为教育统计中未包括历年军事院校招生数(徐岚、崔红艳,2008),按每年军事院校招生10万人,10年共计100万人计算,则按教育统计推算的2010年全国大专及以上程度人口为12460万人,占9.33%。与人口普查数据相比,相差537万人,为0.40个百分点。考虑到教育统计中接受各类高等教育(普通本专科、成人本专科毕业生、网络本专科毕业生、自学考试毕业生)人口可能略有重复,则普查登记数据与教育统计数据比较接近,表明2010年普查基本反映了我国大专及以上受教育程度人口的实际状况。

   

  6.2 文盲人口的准确性

  近年来,随着“两基”(基本普及九年义务教育和基本扫除青壮年文盲)工作的继续推进,我国青壮年文盲持续减少。

  2010年人口普查详细汇总数据显示,大陆31个省、自治区、直辖市和现役军人人口中,文盲人口为5419万人,占4.06%。

  以2000年人口普查公报中文盲人口8507万人为基数,加上历年新增文盲人口,减去教育统计中历年扫盲人口数及历年死亡的文盲人口(历年新增文盲和历年死亡文盲均根据2000年和2010年人口普查推算)。则推算的2010年全国文盲人口为5509万人,占4.11%(见表7)。与2010年人口普查相差90万人,0.05个百分点,表明2010年普查登记的文盲人口数据质量较高。

  7 长表数据代表性的分析

  2010年人口普查继续使用长短表技术,以随机等距概率抽样方法确定长表调查户。但为了方便普查员现场登记和避免更换长表调查户,采用了抽取住户组的方法,即在每个普查小区每40户抽4户(相邻4户一组)填报长表。   

  普查表短表(指全部资料,下同)反映年龄、性别、民族、受教育程度等人口的基本情况,普查表长表的项目45个,包含就业状况、行业、职业、迁移流动、社会保障、婚姻、生育、死亡、住房情况等详细的信息。通过对长、短表直接登记的主要数据结果进行分析,我们可以对长表数据的代表性得出判断。

  7.1 主要人口结构数据的比较

   

  从主要人口结构数据看,长、短表数据存在一定的差异(见表8)。具体来看,长表的家庭户比重和家庭户规模都高于短表,说明长表抽中的家庭户稍微偏多、稍微偏重家庭人口较少的户,但总的看,偏差不大;长表的总人口性别比为103.47,低于短表的104.89,反映长表抽中的男性人口偏少;分年龄段看,长表的少年人口、老年人口比重略高于短表,而青壮年人口比重略低于短表。这是由于长表抽中的青壮年偏少造成的。

  7.2 抽样比比较

  2010年普查,长表总人口占到短表总人口的9.55%,即长表的抽样比为9.55%。从分年龄人口的抽样比看(见图7),抽样比在各年龄分布是不一致的,1~13岁和60~80岁年龄组都比较高,超过9.80%;17~31岁比较低,在9.30%以下;其他年龄段基本在9.50%左右。总体来看,少年人口、老年人口的抽样比偏高,青壮年偏低,男性更为严重。

   

  从长短表分年龄的性别比看(见图8),长表20~50岁各年龄的性别比都低于短表,其余年龄性别比与短表基本一致。这符合长表总人口性别比偏低的情况。

  长短表产生差异的原因主要是长表漏掉了部分青壮年流动人口。这主要是由于现场登记时,对于在摸底时未了解到的人口,没有被列入户主姓名底册,未参加长表抽样,而这些人大部分是居住不太稳定的青壮年流动人口,这部分人在登记复查阶段都填报了短表。

   

  8 结论

  根据上述分析我们可以得出以下一些基本结论:

  (1)0~9岁低年龄人口存在漏报,漏报人口超过1000万人;20~45岁人口有漏也有重,但重报大于漏报;其余年龄组人口的完整性比较高。

  (2)受分年龄人口完整性的影响,从常住地汇总的总人口数据表现出净漏报;漏报主要发生在低年龄组和婴幼儿。

  公报发布的总人口133972万人是符合实际的,真实反映了中国2010年的人口规模。

  (3)性别数据可信度较高,但个别年龄受漏报或重报影响,性别比存在一定偏差,主要发生在低龄和青壮年年龄段。

  出生婴儿性别比以及幼儿性别比依然偏高,存在一定程度的女婴漏报。

  (4)育龄妇女生育水平明显偏低,根据长表妇女生育孩子数直接计算的总和生育率1.18,大约低估了27%,2010年实际的总和生育率应为1.5;2009年11月1日至2010年10月31日期间的出生人口1384万(短表)至少漏报了15%,实际出生人口应大于1590万人。

  (5)根据普查登记的死亡人口直接计算的粗死亡率5.58‰是一个偏低的估计,死亡人口漏报率超过20%,实际死亡率应为7.1‰左右;平均预期寿命达到74.83岁,比2000年提高了3.43岁。

  (6)教育数据质量较好,反映了我国教育发展的成就。

  (7)长表数据的代表性总体上比较好。但由于长表少登记了部分青壮年流动人口,尤其是男性流动人口,使得长、短表在年龄、性别结构上出现了一定的偏差,这可能会对长表的其他结构数据产生一定的影响,在使用长表数据推算总体时需要注意这些问题。

  (8)这次普查结果使我们进一步印证了2000年人口普查0~9岁人口存在较高的漏报率,达到10.61%,漏报人口约为1689万人。中国2010年人口普查尽管面临着许多挑战,难度空前,但在普查方案设计等技术环节进行了改进(《人口研究》编辑部,2010),使得数据质量明显提高,总人口的漏报率大大降低。通过以上分析我们不难看出,查准出生和死亡人口仍然是普查的难点。

标签组:[第六次全国人口普查] [人口普查] [生育年龄] [总和生育率] [性别比] [死亡率] [生命表

上一篇基于GIS的人口统计数据分析

下一篇[资料]全国人口普查地图标绘软件培训(全区)

相关阅读

热门阅读