发表自话题:中国总人口超14.1亿
点击上方“Python爬虫与数据挖掘”,进行关注
回复“书籍”即可获赠Python从入门到进阶共10本电子书
今
日
鸡
汤
无可奈何花落去,似曾相识燕归来。
2020年1月17日,国家统计局发布了2019年国民经济报告,报告中指出我国人口突破14亿。
猪哥的朋友圈被14亿人口刷屏,但是很多人并没有看到我国复杂的人口问题:老龄化、男女比例失衡、生育率下降、人口红利下降等。
今天我们就来分析一下我们国家的人口数据吧!
文章目录:
一、背景
人口突破14亿
人口普查年
全面放开二胎
二、分析目标
三、爬取数据
请求单页数据
分页数据
保存Excel
年数据
四、数据分析
总人口
男女人口比例
人口城镇化
人口增长率
年龄结构
五、总结
一、背景
1.人口突破14亿
2020年1月17日,国家统计局发布了 2019年国民经济报告 ,报告中指出:年末中国大陆总人口(包括31个省、自治区、直辖市和中国人民解放军现役军人,不包括香港、澳门特别行政区和台湾省以及海外华侨人数)140005万人。
也就是说2019年底我国人口突破14亿!
报告链接:http://www.stats.gov.cn/tjsj/zxfb/202001/t20200117_1723383.html
2.人口普查年
根据2010年5月12日国务院第111次常务会议通过的《全国人口普查条例》第一章 第八条规定:人口普查每10年进行一次,尾数逢0的年份为普查年度,标准时点为普查年度的11月1日零时。
也就是说2020年11月将进行第七次人口普查,新中国成立后前六次人口普查分别为:1953、1964、1982、1990、2000、2010年。
ps:有些同学可能会有疑问:十年普查一次,那其他年份人口数怎么得来?在非普查年,当年总人口=上年总人口+当年出生人口-当年死亡人口 而计算得出!
3.全面放开二胎
《中华人民共和国人口与计划生育法修正案(草案)》明确规定,“全面两孩”政策2016年元旦开始即可实施。全面实施一对夫妇可生育两个孩子政策,是中国生育政策的一次历史性调整,实行了36年的独生子女政策全面终止。
二、分析目标
新中国成立70,经历了许许多多的风风雨雨,政策、经济、文化也有很多的变化,人口也随之变化。
人口变化对社会经济发展带来巨大而深远的影响,所以今天我们从多角度来分析我国人口变化:
人口总数
男女比
城镇化
增长率
人口结构
三、爬取数据
关于我国人口的数据来源,可以从“国家数据”网站中获取。这是一个由国家统计局提供的网站,里面有很多国家公开的数据信息!
1.请求单页数据
在国家数据网站中,有从新中国成立到2018年的人口相关数据。
在人口数据中,有三项是我们需要的数据:总人口、增长率、人口结构。
我们按F12查看一下请求的链接,然后复制链接使用requests请求数据。
只使用一个简单的get请求,就把数据获取了,而且返回的直接是json数据!
2.分页数据
我们此次的目的是抓取从新中国至今的所有人口数据,而页面中最多可以获取近20年的数据,所以我们需要分析网页请求中关于分页的参数。
分析请求参数猪哥发现主要有两个参数:zb、sj,分别表示指标和时间。
参数:sj=LAST0,表示近10年,于是猪哥猜想:sj=LAST70 是不是就可以获取70年的数据呢?
然后我们再将zb参数更换,获取到所有的数据!
3.保存Excel
获取到数据之后,我们先将数据清洗,提取出我们需要的数据,然后整理保存到Excel中,数据处理方面我们仍然使用 潘大师(pandas)。
我们来看看保存的excel文件数据。
4.2019年数据
目前数据唯一的不完整就是没有2019年的数据,因为2019年刚刚完结所以数据还没有登记到网站上,我们只能自己算出来然后补齐。
猪哥根据2020年1月17日,国家统计局发布了 2019年国民经济报告中关于人口的数据得出了2019年的相关数据。
来看看完整的70年人口数据。
四、数据分析
数据保存完毕后我们就可以开始数据分析步骤了,一般在我们数据分析之前我们需要有个思路:要分析什么?从哪些角度分析?选择何种可视化图形?得出了什么结论?(当然实际工作时的分析报告需要更为严谨,但大体思路类似。)
1.总人口
首先我们提取Excel中的“年末总人口”这一列的数据进行分析。
直接上代码,猪哥先使用潘大师读取Excel,然后再获取总人口的列数据(完整代码请查看源码)。
上面的代码和之前画曲线有点不同的是:添加了自定义曲线背景色和区域色的功能,下次有同学想自定义pyecharts曲线背景就可以参考这里的代码。
在下图中猪哥标注了四个点:
1949年:新中国成立,总人口 5.42亿
1980年:计划生育正式开始,总人口 9.87亿
2006年:全面放开二胎,总人口 13.83亿
2019年:总人口 14亿
通过观察总人口曲线图得知:
人口总体在增加,但增长曲线慢慢放缓,据社科院预测:中国人口将在2029年达到峰值14.42亿,往后逐步下降
新中国成立至今(2020年)唯一出现人口减少的是1960和1961年,这两年是我国的自然灾害年。
根据总人口数,我们再来分析一下 执行计划生育前31年 与 后31年增长的人口分别是多少?
根据上图我们可以看出:计划生育确实控制了人口的增长!
而放开二胎后并未迎来生育高峰期,联合国相关机构发布的《世界人口展望》2017修订版给出了类似的预期。它倾向于认定中国人口已经开始了倒V型反转,在人口到达高峰后,2050年将会保持13亿多,然后就会加速下滑(低、中、高三种生育率,来自联合国人口基金)。
2.男女人口比例
我们经常会听到别人说:“中国男女比例失衡,将有3000万中国男性娶不到老婆”。
其实这是我国男女比例失衡造成的结果。
下面猪哥就从以下4个角度来分析我国男女比例的关系:
2019年男女比
男性占总人口比例
男女人口数曲线
男女人口数差值
根据上面4图我们可以得出一些结论:
新中国成立以来男性人口一直比女性人口多,可能与我国重男轻女思想有一定关系。
男性占比最高是在新中国成立之初为51.96%,最低是在1996年为50.82%。下图是来自快易数据提供的 中国、印度、日本、英国、美国 五国的男性占比图,从图中可以清晰看出中国与印度的男女比一直处于失衡状态。
2000年我国男女人口差值最大为4131万人,最小差值是在1965年为1718万人。
2006年以来我国男女比例失衡状况逐年缓解
我国到底有多少男性同胞们会打光棍? 由于篇幅有限,我们下期做一个专题分析这个问题!
3.人口城镇化
有很多同学不理解何为“人口城镇化”,下面猪哥引用百度百科的介绍:
人口城镇化是指农村人口转变为城镇人口、农业人口转变为非农业人口的过程,它是社会生产力发展到一定阶段的产物。
城镇化是一个综合指标,可以用来衡量当地经济发展情况、基础设施和人民生活水平。
同时,城镇化的进程也是房地产市场在需求层面的重要支撑力量,下图是一张人口城镇化与社会发展关系的图。
根据美国地理学家诺瑟姆对世界各国城市化的研究,世界城市化分为三个阶段:
初期(人口城镇化在30%以下):农村人口占优势,工农业生产力水平较低,工业提供就业机会少,农业剩余劳动力得不到释放。
中期(人口城镇化30%~70%):工业基础比较雄厚,经济实力明显增强,农村劳动生产率提高,剩余劳动力转向工业,城市人口比重快速突破50%,而后上升到70%。
后期(人口城镇化70%~90%):农村人口向城镇人口的转化趋于停止,农村人口占比稳定在10%左右,城市人口可以达到90%左右,趋于饱和,这个过程的城市化不再是人口从农村流向城市,而是城市人口在产业之间的结构性转移,主要是从第二产业向第三产业转移。
来看看我国人口城镇化数据分析:
由上图分析可知:
2019年我国人口城镇化达到60.6%,处于人口城镇化的中期。
1995年我国乡村人口达到峰值:8.59亿。
1996年我国城镇化步伐加快,同年城镇化超过30%,进入城镇化的中期。
在2010年我国城市人口与乡村人口持平约为6.7亿,城镇化为50%。
联合国对中国人口城镇化进程进行了预测:我国城镇化初期是1949年~1995年,中期是1996年~2032年,后期是2033年以后。
4.人口增长率
数据可视化的代码猪哥就不放出来了,想看的同学直接去看源码吧,我们直接看图片。
由上图得知:
在自然灾害三年(1959、1960、1961)我国人口死亡率陡增,出生率也下降,人口出现新中国成立以来第一次负增长!
在自然灾害过后的两年(1962、1963)迎来我国最大的一波生育潮,我们通过2010年人口第五次普查的数据也可以验证这个结论。
自然灾害三年过后我国的死亡率一直趋于稳定,维持在6-7‰左右。
我国出生率整体一直在下降,在计划生育之前出生率就在下降。
在2016年我国全面放开二胎之后的三年(2017-2019),出生率并没有出现好转,反而持续走低。
目前的育龄妇女基本都是85-90后,受计划生育(1980年)影响,育龄妇女人数比以前少了,生孩子的数量自然就比以前少了,这一情况会持续下去。
出生率降低,死亡率增加,人口增长就慢慢放缓,社科院预测在2029年左右我国人口达到峰值(14.42亿)之后慢慢减少!
题外话:猪哥在爬取数据之后,发现 国家数据网站 提供的数据也是有误的:1961年人口比1960年人口下降,而增长率却为正数!
5.年龄结构
人口年龄结构是衡量 老龄化 与 人口红利 的指标。
老龄化:指老年人口相对增多,在总人口中所占比例不断上升的过程,国际上通常看法是,当一个国家或地区60岁以上老年人口占人口总数的10%,或65岁以上老年人口占人口总数的7%,即意味着这个国家或地区的人口处于老龄化社会。 ——百度百科
老龄化是每个国家每个社会都会经历的阶段,目前来讲发达国家的老龄化问题比发展中国家更严重,据快易数据提供的一份 世界各国老龄化排名来看,中国只排到了65名,第一名是日本,而前几名基本都是欧洲国家。
人口红利:经济学术语,是指一个国家的劳动年龄人口占总人口比重较大,抚养率比较低,为经济发展创造了有利的人口条件,整个国家的经济呈高储蓄、高投资和高增长的局面。
人口红利简单来说就是 劳动力人口数 大于 非 劳动力人口,劳动人口比例较高,保证了经济增长中的劳动力需求,劳动力资源丰富和成本优势已经使中国成为世界工厂和世界经济增长的引擎。
从上面三图分析我们可得:
1982年我国 0-14岁少儿占比33.59%,而2019年减至17.9%,比例减至近半。
2019年我国65岁以上人口占比为12.57%,已经进入老龄化社会。世界有92个国家进入老龄化,中国排在65。
2010年我国总抚养比达到最低为:34.2%,意味着每3个劳动力需要养一个老人或小孩。
人口红利在2010年达到顶峰,之后在慢慢降低。
2019年我国老年人口为1.76亿,中国的老龄化即将进入快速老龄化阶段,目前我国多个省的养老金告急,我国养老金体系改革迫在眉睫。
五、总结
由于篇幅过长,很多分析代码并未放出,如果想学习的同学可以查看源码(https://github.com/pig6/china_population)。
我们来总结一下我们今天分析的结果吧:
总人口:我国总人口稳步增长,据社科院预测:中国人口将在2029年达到峰值14.42亿,往后逐步下降
男女比例:我国自新中国成立以来,一直处于男多女少的状态中,2019年男女差为3000万。因为老年人中女性多于男性,所以年轻男女的差值应该会更大,下期我们可以专门分析一下:中国将会有多少光棍?
人口城镇化:2019年我国城镇化超过60%,处于城镇化发展的中期阶段。联合国对中国人口城镇化进程进行了预测:我国城镇化初期是1949年~1995年,中期是1996年~2032年,后期是2033年以后。
人口增长率:我国出生率持续走低,在全面放开二胎之后并未出现生育潮,人口增长慢慢放缓,据社科院预测在2029年人口增长率为0,之后出现负增长,生育率低使得我的老龄化进程加快。
人口年龄结构:人口年龄结构影响着两个重要的指标:人口红利、老龄化。我国人口红利在2010年达到顶峰,之后慢慢减少。老龄化问题是国际普遍存在的问题,尤其是发达国家。据快易数据显示:2018年全世界有92个国家进入老龄化,排在第一的日本老龄化为:27.58%,我国老龄化排在第65位。但随着时间推移我国即将进入快速老化期,养老问题日益凸显!
总结来说我国人口结构存在三个严峻的问题:
生育率低:生育率低、劳动力萎缩、老龄化加速、人口红利消失加快。
养老问题:老龄化加速、劳动力萎缩,导致多省养老金告急,需中央补贴!
剩男问题:计划生育实行后男女人口差拉大,男女失衡,剩男问题严峻,越南买媳妇新闻屡见不鲜!
面对三个严峻的考验,希望有专业人士能为我们国家出谋划策,祝愿我们的祖国能早日实现伟大复兴????????????????????????
数据来源:
1、http://data.stats.gov.cn/easyquery.htm?cn=C01
2、http://www.stats.gov.cn/tjsj/zxfb/202001/t20200117_1723383.html
3、https://www.kylc.com/stats
参考:
1、https://yq.aliyun.com/articles/668824
2、https://mp.weixin.qq.com/s/SmNxflkaYgBewwmjoqOfJw
3、https://www.ssap.com.cn/c/2019-01-03/1074956.shtml
源码地址(或阅读原文):https://github.com/pig6/china_population
------------------- End -------------------
往期精彩文章推荐:
干货|Python大佬手把手带你破解哔哩哔哩网滑动验证(下篇)
40行代码教你利用Python网络爬虫批量抓取小视频
利用Python网络爬虫抓取微信好友的签名及其可视化展示
欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持
想加入Python学习群请在后台回复【入群】
万水千山总是情,点个【在看】行不行
/今日留言主题/
你现在在哪个城市呢?