中 国 人 口 预 测 模 型
摘要
本文对人口预测的数学模型进行了研究。首先,建立一次线性回归模型,灰色序列预测模型和逻辑斯蒂模型。考虑到三种模型均具有各自的局限性,又用加权法建立了熵权组合模型,并给出了使预测误差最小的三个预测模型的加权系数,用该模型对人口数量进行预测,得到的结果如下:
其次,建立Leslie人口模型,充分反映了生育率、死亡率、年龄结构、男女比例等影响人口增长的因素,并利用以1年为分组长度方式和以5年为
负指数函数,并给出了反映城乡人口迁移的人口转移向量。
最后我们BP神经网络模型检验以上模型的正确性
关键字:一次线性回归 灰色序列预测 逻辑斯蒂模型 Leslie人口模型
BP神经网络
一、问题重述
1. 背景
人口增长预测是随着社会经济发展而提出来的。由于人类社会生产力水平低,生产发展缓慢,人口变动和增长也不明显,生产自给自足或进行简单的以货易货,因而对未来人口发展变化的研究并不重要,根本不用进行人口增长预测。而当今社会,经济发展迅速,生产力达到空前水平,这时的生产不仅为了满足个人需求,还要面向社会的需求,所以必须了解供求关系的未来趋势。而人口增长预测是对未来进行预测的各环节中的一个重要方面。准确地预测未来人口的发展趋势,制定合理的人口规划和人口布局方案具有重大的理论意义和实用意义。 2. 问题
人口增长预测有短期、中期、长期预测之分,而各个国家和地区要根据实际情况进行短期、中期、长期的人口预测。例如,中国人口预期寿命约为70岁左右,因此,长期人口预测最好预测到70年以后,中期40—50年,短期可以是5年、10年或20年。根据2007年初发布的《国家人口发展战略研究报告》(附录一)及《中国人口年鉴》收集的数据(附录二),再结合中国的国情特点,如老龄化进程加速,人口性别比升高,乡村人口城镇化等因素,建立合理的关于中国人口增长的数学模型,并利用此模型对中国人口增长的中短期和长期趋势做出预测,同时指出此模型的合理性和局限性。
二、问题的基本假设及符号说明
问题假设
1.假设本问题所使用的数据均真实有效,具有统计分析价值。
2.假设本问题所研究的是一个封闭系统,也就是说不考虑我国与其它国家的
人口迁移问题。
3.不考虑战争 瘟疫等突发事件的影响
4.在对人口进行分段处理时,假设同一年龄段的人死亡率相同,同一年龄段
的育龄妇女生育率相同。
5.假设各年龄段的育龄妇女生育率呈正态分布
6.人类的生育观念不发生太大改变,如没有集体不愿生小孩的想法。 7.中国各地各民族的人口政策相同。
符号说明
ai(t)--------------------第ci(t)--------------------第
k
t时间区间内第i个年龄段人口总数
t时间区间内第i个年龄段人口总数占总人口的比例 t时间区间内第i个年龄段中第k年龄值人口总数占总人
ci(t)--------------------第
口的比例
A(t)--------------------第P(t)--------------------第
t时间区间内各年龄段人口总数的向量 t时间区间各年龄段人口总数向量转移矩阵
bi(t)-------------------第di(t)-------------------第di(t)-----------------第
k
t时间区间内第i个年龄段人的生育率 t时间区间内第i个年龄段人的死亡率
t时间区间内第i个年龄段中第k年龄值的死亡率 t时间区间内第i个年龄段人的存活率 第t时间区间男性人数与女性人数的比值 t时间区间内第i个年龄段育龄妇女的生育率
si(t)-------------------第
h(t)---------------------
ei(t)---------------------第
m---------------------------每个年龄段上年龄值的数目
三 问题分析
本问题是一个关于人口预测的问题,与以往不同,本问题需要根据中国特殊的国情去研究,我们根据对问题的分析并结合实际情况认为对人口产生主要影响的因素有以下四个:生育率、死亡率、年龄结构、男女比例。在这里需要说明的是对于人口产生影响的一些因素,如经济发展状况,生态环境情况、已婚夫妇对生育所持的态度、医疗技术的发展等,我们认为它们对人口的增长是通过作用于以上四个指标而间接发挥作用的。而对于诸如战争爆发、疾病流行等突发因素,由于其不可预测性,我们不考虑
1.生育率
生育率代表育龄妇女生育人口的能力,从一定意义上讲生育率的高低控制着人口增长率高低,通常来说生育率越高人口增长率越高,所以说生育率是人口增长的源头。生育率的影响因素很多,首先是年龄因素,不同年龄段的育龄妇女的生育率不同,通常20岁至30岁的育龄妇女的生育率最强;此外是地域因素,受政策因素、观念认识、周边环境等影响乡村育龄妇女的生育率高于城市育龄妇女的生育率;还有其它因素的影响,比如大规模疾病会降低育龄妇女的生育率。
2.死亡率
死亡率表示一定时期内一个人口群体中死亡的人数占该人口群体的比值,和生育率一样死亡率的高低同样控制着人口增长率高低,如果说生育率是人口增长的源头,则死亡率是人口增长的汇点。同样影响死亡率的因素很多,首先不同年龄段的死亡率不同,通常老年人和刚出生的婴儿的死亡率较高;从长远来看,随着医疗水平的提高,整个人口群体的死亡率将会成下降趋势;此外一些突发事件,如战争、疾病等,将会使使那一段的人口死亡率大幅度提高。
3.年龄结构
年龄结构反映了总体人口在各年龄段分布情况,年龄结构蕴涵的信息量很大,从其中我们可以实现对很多问题的分析,比如从年龄结构我们可以分析出社会的老年化程度,此外从年龄结构我们可以判断出不同时间段人口出生的情况,比如年龄结构不仅反映了总体人口在各年龄段分布情况,而且考虑到不同年龄段人口生育率、死亡率不同等情况,我们可以在年龄结构中有效反映这些差异
4.男女比例
男女比例反映了总体人口中男性与女性人数的比较关系,男女比例值能反映出体人口中男性与女性人数是否协调,男女比例主要受男女出生比和男女死亡率的影 响,男女出生比正常范围在103-107,也就是说出生100个女儿的同时会有103 —107个男儿出生,但是在现实社会中,女性死亡率低于男性,所以男性与女性人数大致相等,社会维持在一个稳定状态。但目前我国男女出生比超过110,这不仅将导致男女比例失调,还会对人口的预测产生影响,所以在人口预测时必须将男女比例问题考虑进去。
考虑到人口预测分为中短期预测和长期预测,两类预测因为涉及的时间长短不同,所以考虑的因素不同,采用的方法不同。
对于中短期预测,我们假设生育率、死亡率、年龄结构、男女比例均维持在同一稳定水平,这样我们采用方法有很多,。
对于长期预测,我们需要考虑生育率、死亡率、年龄结构、男女比例等因素随时间变化,此外城乡人口迁移对城乡人口结构产生影响,尽管以上因素短期内积累效应较小,但在长期中必须考虑。
在预测方法上我们选用了基于以往人口数据的一次线性回归,灰色、时间序列预测,逻辑斯蒂模型和基于年龄结构并生育率、死亡率随时间Leslie人口模型
四 数学模型
4.1.熵权组合模型
有关于人口增长预测的模型很多,比如灰色GM(1,1),移动平均数法,指数平滑法,一元线型回归,马尔萨斯人口模型,宋健人口模型等等,但是每种预测方法的精度往往也不同。组合模型和单个模型比起来,具有较高的预测精度,组合预测的关键就在于确定各个预测方法的权重。
本文将从一个新的角度进行研究,即从信息论的观点出发,根据各个体预测方法误差指标的信息熵,确定组合预测模型的权重,进行人口组合预测模型。
本文选用了一元线性回归法,逻辑斯蒂模型法,灰色GM(1,1)模型法对中国人口增长进行预测。而1978至2005年的数据见本文表一。
.4..1.1灰色预测模型 1.模型建立
灰色系统是指部分信息已知,部分信息未知的系统。灰色系统的理论实质是将无规律的原始数据进行累加生成数列,再重新建模。由于生成的模型得到的数据通过累加生成的逆运算――累减生成得到还原模型,再有还原模型作为预测模型。
预测模型,是拟合参数模型,通过原始数据累加生成,得到规律性较强的序列,用函数曲线去拟合得到预测值。 灰色预测模型建立过程如下:
1) 设原始数据序列X0有n个观察值,X累加生成新序列 X和函数曲线。
2) 利用拟合出来的函数,求出新生序列X1的预测值序列X(1) 3) 利用X(0)(k)X(1)(k)X(1)(k1)累减还原:得到灰色预测值序列:
.,0nm X0X01,X0 (共n+m个,m个为未来的预测值)。 2,..X
1
0
X
0
1,X02,...,X0n,通过
X
1
1,X12,...,X1n,利用新生成的序列X1去拟
将序列X0分为Y0和Z0,其中Y0反映X0的确定性增长趋势,Z0反映X0的平稳周期变化趋势。
利用灰色GM(1,1)模型对X0序列的确定增长趋势进行预测 2 模型求解
根据2006全国统计年鉴数据整理得到全国历年年度人口统计表如表1.
根据上述数据,建立含有20个观察值原始数据序列X0:
X
0
96259
[**************]04[***********]
130756
利用Matlab软件对原是数列X0进行一次累加,得到新数列为X1,如表2:
表2:新数列X1误差和误差率
1、利用表2,拟合函数,如下:
e43 x(t1)92800
0.011t624
91 83784
2、精度检验值
c=0.3067 (很好) P=0.9474 (好)
3、得到未来20年的预测值:
4.1.2一元线性回归法
根据表一中的数据,本文建立一元线性回归模型YabX进行预测;
Y为人口数 单位:万人 X为年份。利用Matlab软件,用麦夸特法进行回归拟合,得到拟核值及回归方程,如下:
Y102974.50531572.3805X 相关系数:R=0.9359
4.1.3 逻辑斯蒂模型(Logistic growth model)
考虑自然资源和环境对人口的影响,并以Nm记自然资源和环境条件所能允许的最大人口数。把人口增长的速率除以当时的人口数称为人口的净增长率。如果人口的净增长率随着N(t)的增加而减小,且当N(t)Nm时,净增长率趋于零。因此人口方程可写成
dN(t)dt
r(1
N(t)Nm
)N(t)
其中r为常数,此模型就叫逻辑斯蒂模型。
我们把1978年至2005年全国历年年底总人口的数值组成一个观察矩阵,其中的每一个数值称之为观察值。本文利用spss软件,得出与观察值一一映射的拟核值,残差值和cook距离,见下表:
表九 用spss软件得到各观察值所对应的拟核值,残差值和标准残差
从新数据得到 F=372.3471 p-值=0.001
本文建立逻辑斯蒂模型:y130517.5/(1e0.8840.185x)
相关系数R=0.9888
4.1.4. 组合模型建立
1、熵权法的概念及基本步骤
熵权法是一种决定指标的方法,我们知道,综合指标取决于单个指标数的确定,一般情况下的权重是根据经验来确定的,但是这种确定权重的方法缺少科学根据,也不能保证确立的综合指标能反映原始指标的大部分信息,且权重的确立因人而异,所以其应用受到了限制,而熵权法就能够避免这些问题,使权重的确立具有科学的根据,具有说服力。熵权法的步骤确立如下: ① 计算第j项指标下第i个方案的指标比重pij
yij
m
i1
yij
② 计算指标j的熵值 ejkpijlnpij (k
i1
m
1lnm
)
③ 计算第j项指标的差异系数 gj1ej ④ 定义权重wij
gj
m
j
g
i1
则 wij就为熵权法确定的权重。
2、误差指标的选举
为了能全面的各个预测方法以及组合预测的预测效果,必须制定一套切实可行的误差指标。按照预测效果的评价惯例,本文选取如下指标作为参考: (1)、平方和误差
n
2
SSE
t1
(yiyi)
(2)、平均绝对值误差
MAE
1
n
n
yiyi
t1
(3)、均方误差
MSE
n
(4)、平均绝对值百分比误差
MAPE
1
n
t1(yiyi)
yi
(5)、均方百分比误差
MSPE
3、组合模型权重的确定
设以选定m种个体预测方法,n个误差指标,m种个体预测方法对应n个误差指标构成了评价指标值矩阵;
R(rij)mn
第j个指标下第i种个体方法的指标比重值Pij为
m
Pijri/j
t1
r i
j
第j个指标的熵值为:
m
EjPijlnPij
t1
记
ejlnEj 第i个指标的权重为:
m
j(1ej)/
t1
(1e
j
)
记矩阵R中每列最优值为rj,对该矩阵所有元素做标准化处理,可得:
r/r指标j的指标值越大越好jij
dij
r/r指标j的指标值越小越好ijj
这样,各个体预测方法的熵权评价值i,可以表示为:
m
i
t1
d(i0,1,2,m ,jij
)
将上式进行归一化处理,即可以得到各个个体的权重。
4.1.6熵权组合模型求解
本文利用Matlab软件对上述的模型、指标进行综合的运算处理,得到熵权系的基本数据资料,见下表:
加权系数为:0.24282,0.34055,0.41663。
4.2 Leslie人口模型
4.2.1模型建立
在这里我们将人口按年龄大小等分为n个年龄组,记i=1,2,… , n
同时将时间离散为时段,长度与年龄组区间相等,记k=1,2,…
定义ai(t)为第t时间区间内第i个年龄段人口总数,bi(t)为第t时间区间内第i个年龄段人的生育率。
则有下面关系:
n
a1(t1)
a(t)b
i
i
i1
定义第i 年龄组在1时段内的死亡率为di, 则存活率为si=1- di 则有下面关系
ai1(t1)ai(t)si,i1,2,,n1
定义A(t)为第t时间区间内各年龄段人口总数的向量
A(t)a1(t),a2(t),an(t)
定义P(t)为第t时间区间各年龄段人口总数向量转移矩阵
b1b2
P(t)
bn1bn
s1000
0s20
0
00 sn10
由以上定义有
A(t1)A(t)P(t)
进而有以下关系
n1
A(t)A(1)P(i)
i1
需要说明的是为减小误差每次计算A(t)完后用 公式an(t1)an(t)snan1(t)sn1校正an(t1)
4.2.2数据分析及处理
我们分别对m=1和m=5进行说明 m表示每个年龄段上年龄值的数目 4.2.2.1对于m=1的情况,
1、各年龄分层人口占总人口的比率
对于m=1的情况,各年龄分层人口占总人口的比率就是各年龄值占总人口的比率,
为消除各年数据随机性我们我们采用对各年数据取平均值的方法得到数据。
2、各年龄分层人口的死亡率
与上面分析相同我们采用对各年数据取平均值的方法得到数据。 3、各年龄分层上育龄妇女的生育率
通过观察我们发现2003年生育率很低,我们猜想这是由于那一年有非典的原因,因此在剔除这一年的数据后对各年数据取平均值的方法得到数据。
我们假设各年龄分层上育龄妇女的生育率呈正态分布进行数据拟合。
图2 m=1时育龄妇女的生育率正态分布图
4.2.2.2 对于m=5的情况
为了实现年龄结构分析,同时也为了对生育率和死亡率这些与年龄段有明显联系的指标分析
我们决定对人口统计数据进行年龄分层处理。具体实现办法为以5年为年龄分段长度对附件中数据进行分层,例如0-4岁为第1年龄段,15-19岁为第4
年龄段,90岁以上老人由于所占比例较小,不对统计产生显著影响,故与最后一组一起研究。
需要说明的是与m=1情况的处理方法一样,我们先对各年数据取平均值的方法得到分析数据。
1.各年龄分层人口占总人口的比率
附表的数据给出了不同年龄值男性和女性人数占总人数的比率,对于某一年龄段人口占总人口的比率为该年龄段中各年龄值男性或女性人数占总人数的比率之和,公式如下
5
cij(t)
c
k1
kij
(t)
式中 j=1,2 其中1表示男性,2表示女性
附表中给出的数据是分别给出男性比率和女性比率,这里由于我们要把男女作为一个整体,所以我们对各年龄分层男性比率和各年龄分层女性比率相加得到各年龄分层人口占总人口的比率,公式如下
ci(t)ci1(t)ci2(t)
式中ci(t)表示第t时间区间内第i个年龄段人口总数占总人口的比例
ci1(t)表示第
t时间区间内第i个年龄段中男性比率
ci2(t)表示第t时间区间内第i个年龄段中女性比率
2. 各年龄分层人口的死亡率
各年龄分层男性死亡率或女性死亡率为各年龄分层中不同年龄值男性死亡率或女性、系数加权得到 ,公式如下:
5
c
dij(t)
k1
kij5
(t)d
kij
kij
(t)
(t)
c
k1
式中 j=1,2 其中1表示男性,2表示女性
与上面一样我们对各年龄分层男性死亡率和各年龄分层女性死亡率系数加权得到第t时间区间内第i个年龄段人的死亡率
di(t)
ci1(t)di1(t)ci2(t)di2(t)
ci1(t)ci2(t)
式中di(t)表示第t时间区间内第i个年龄段人的死亡率 di1(t)表示第t时间区间内第i个年龄段男性的死亡率
di2(t)表示第t时间区间内第i个年龄段女性的死亡率
在这里需要说明的是第0岁较高,出现奇异,分析原因我们认为这是婴儿的出生造成的,
我们对第1个年龄段人的死亡率进行校正,
5
c
d1j(t)
k2
k1j5
(t)d
k1j
k1j
(t)
(t)
c
k2
说明:为便于表示令第0岁为第1年龄值
3. 各年龄分层上育龄妇女的生育率
同以上分析ei(t)为每个年龄段上对应各个年龄值的育龄妇女的生育率之和 我们假设ei(t)呈正态分布:
图3 m=5时育龄妇女的生育率正态分布图
4.2.3模型求解
4.2.3.1对于m=1的情况
图4 m=1时人口预测图象
4.2.3.2对于m=5的情况
表12 m=5时人口预测
图5 m=5时人口预测图象
4.2.4模型改进
1.考虑到生育率和死亡率是随时间变化的,我们可以定义生育率和死亡率为时间函数
(1)生育率
影响生育率因素有受政策因素、观念认识、周边环境等,通常来说农村的生
育率高于城市,为了有效区分这种差异性,我们定义b(t)为反映城、镇、乡平均生育率水平的基准生育率,定义cb(t)、tb(t)、vb(t)分别为城、镇、乡平均生育率 则cb(t)a1b(t),tb(t)a2b(t),vb(t)a3b(t)
其中a1、a2、a3为反映生育率高低的系数,系数的大小根据具体情况确定 显然有a1a2a3
考虑到随着时间的推移,计划生育政策深入人心,农村生育率将降低 用下面函数反映这种变化
vb(t)vb(0)ae
bt
式中a,b为参考系数
(2)死亡率
随着时间的推移,医疗水平的提高,死亡率将下降,但死亡率中有一部分是非疾病死亡,对于青年人死亡率比较平稳,死亡率变化主要体现在老年人。
定义di(t)为第t时间区间内第i个年龄段人的死亡率
di(0),il
di(t)bt
di(0)ae,il
式中a,b为参考系数,用来区分青年与中老年
2.考虑到城乡人口转移因素
城乡人口转移将会对城乡人口结构产生影响,因此必须进行研究,考虑到人口主要是从镇转入城,从乡转入城,从乡转入镇
因此定义B(t)为从镇转入城的转移向量,C(t)为从乡转入城的转移向量,D(t)为从乡转入镇的转移向量。 以C(t)为例说明转移向量,
C(t)w1(t)v1(t),w2(t)v2(t),,wn(t)vn(t)
式中vi(t)表示第t时间区间内第i个年龄段的农村人数,
wi(t)表示第t时间区间内第i个年龄段人的农村转入城市的百分比 则A’(t)=A(t)+B(t)+C(t) 表示城乡人口转移后的人口向量 每次计算完A(t)A(t1)P(t1)
再计算A’(t)=A(t)+B(t)+C(t)
4.2.5模型优缺点分析
1.Leslie人口模型可以分析不同年龄组生育率与死亡率不同的情况 2.Leslie人口模型中可以考虑生育率与死亡率随时间变化的情况 3.Leslie人口模型中可以分析出年龄结构的情况
4.Leslie人口模型中对给出的关于年龄结构的统计数据要求较高 5.Leslie人口模型对男女比例不平衡情况反映敏感
6.Leslie人口模型中选取分组的年龄段长度不同,适于的预测期长短不同
4.3 BP神经网络人口预测模型
基于BP神经网络的时间序列预测模型与传统模型不同的是:此模型只需以历史数据作为输入,通过抑制与激活神经结点,自动决定影响性能的参数及影响程度,自动形成模型,无需进行模型假设,再加上神经网络对复杂的非线性系统具有曲线拟核能力,预测能力强,所以是合适的对比检验模型。
matlab实现:
P为输入样本矢量集;T为对应的目标样本矢量集.设:输入样本 p=[1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 ] (年份归一化后的数据)
p=[0.1996 0.1997 0.1998 0.1999 0.2 0.2001 0.2002 0.2003 0.2004 0.2005] 输出样本观测值(对应1996-05年的总人口归一化后的数据):
T=[0.122389 0.123626 0.124761 0.125786 0.126743 0.127627 0.128453
0.129227 0.129988 0.130756]
采用神经网络模型进行运算,系统仿真 产生输入数据的收敛结果见图示:
图6:BP训练函数
表13:BP算法的结果:
五 模型优缺点的评判
在上文中,每个模型的后面,针对该模型的优缺点本文都做了深刻地评判,此时就不再重复赘言了,却还没有从宏观角度出发,对本文的所有模型进行整体的优缺点的总评判。
优点:
1、具有很好的创新性,在对传统模型的理解的基础,取模型之长,利用熵权法对模型进行组合预测,大幅度提高了预测准确度;
2、本文的思路宽阔,在不同时期,建立起不同的模型,能够与实际紧密的联系,结合当前具体国情,对问题进行求解,使该模型具有很好的推广性和通用性; 3、模型的的计算采用专业软件求解,例如Matlab软件,spss软件,dps软件等,
数据可信度较高。
4、对于题目附录里为涉及到的数据,均到“中国统计局”下载官方数据加以补充,并且对论文中涉及到的众多影响因素进行了量化处理,使得论文的说服里更强,实际性更高。
缺点
1、影响人口增长预测的动态因素很多,而且不可能都能波及到,所以模型与实际还是有一些距离的;
2、不同模型在相应的时间阶段具有很高的预测能力,但是一旦脱离了这个时间阶段,模型的预测能力就会回落。
六 全文总结
人口预测就是根据一个国家、一个地区人口的现状,考虑到社会政治经济条件对人口再生产和转化的影响,分析其发展规律,运用科学的方法测算未来某个时期人口的发展状况。人口的预测包括通常指的是中短期预测和长期预测。为了能够提供合理地预测值,本文进行了深刻地研究,建立了4个模型,进行全方位的深刻讨论。
通过,灵敏度的分析比较,模型一适合中短期的预测,模型二综合面广,考虑全面,在本文假设的条件下,就符合中国人口特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化都作为模型中的因子元素,对中国的人口未来长期发展状况进行了科学性的预测。
本论文的创新性和技术性主要表现在这几个方面:
1、本文为了提高预测的精确度,对于各种的传统预测方法,有针对性的做了筛
选,通过权重关系,建立起了组合模型,特别地在权重问题上,采用了熵权法分配权重,思路巧妙,可以为以后提供合理参考。
2、本文建立BP神经网络模型,无需进行模型假设,同时能利用模型自身对复
杂的非线性曲线进行拟核,利用拟核函数对人口增长趋势作出了合的预测。 3、本文与计算机实用软件,计算机编程紧密的结合在了一起,在本文中运用了
诸如spss,dps等一些统计性软件,同时利用Matlab进行了一些编程,大大提升了数据的处理能力,也使得数理统计变得不在十分棘手了。 4、本文的模型具有很好的推广性,而且在其它领域发挥很好的效果。
七 相关建议
一、最近几年中国人口发展特点
(一)人口增长速度快 但增长速度回落
(二)农村人口比重大 ,但人口城市化快速发展
(三)人口老龄化加剧 男女性别比偏高有所回落
二、中国人口的发展趋势
预测中国人口的发展趋势有以下几点:
①目前生育率经过近二十年的控制已达到了较低水平,自然增长率已由1974年22.2‰下降到1983年的11.5‰,几乎降低了一半,这是世界人口史上罕见的, 但生育率继续下降的余地已经不大了。
②由于20世纪60—70年代生育高潮形成的人口年龄结构的影响,在1995年前后形成一个生育高峰,平均每年进入婚育年龄的人数在1100万对以上,生育率的降低较为困难。
③中国目前人口死亡率在世界上是属于较低的,随着经济的迅猛发展,生活水平和医疗水平的进一步提高,死亡率继续下降是有可能的。
④人口城乡结构比较落后,乡村人口比重依然很大,且在相当长的时间里降低乡村的人口生育率仍然较为困难。
综上所述,以目前13亿人口为基础,人口增长率能继续得到控制,到21世纪中期将达到16亿。人口学家普遍认为,这是中国人口的极限,即中国土地可负荷和供养的最大人口数。此后我国人口数会略有回落,并在某一时期到达最佳人口数而稳定下来。
八 参考文献
[1] 王能超,数值分析简明教程,北京:高等教育出版社,1999 [2] 廉庆荣,线性代数与解析几何,北京:高等教育出版社,2002
[3] 张兴永,MATLAB软件与数学试验,江苏:中国矿业大学出版社,2000 [4] 张兴永,数学建模简明教材,江苏:中国矿业大学出版社,2004 [5] 华东师大数学系,数学分析(第三版),北京:高等教育出版社,1998 [6] http://www.stats.gov.cn/(中国国家统计局网)
附录一.:
%%%此程序解决长期预测问题
ht=1.2121 ;total_person_05=130756;kind=9;m=3
%1.1392 1.1721 121.21 表示男女人口比重 %total_person_05表示05年的总人数 %kind表示哪种人口:城市或镇„„; %ht表示05年的男比女的比率;
%a5表示2005年所有人口分年龄段的占的比率
%A表示第t时间段时内各年龄段人口总数占总人口的比例向量
bili=a5(:,kind)+a5(:,kind+2)%比例表示人该年龄段的人口比例,a5(:,kind)男性比率 a5(:,kind+2) 女性比率 dead_lv=final_siwang_lv(:,m); dead_lv=dead_lv/1000;
s=1-dead_lv;
A=bili*total_person_05/100;%各年龄段的人口数 A=A';
for sum=1:9%预测45年,5年为一个周期 %ShengYu =[0 0 0.00021591 0
10.876 60.401 82.094 27.307 2.2229 0.0442840 0 0 0 0 0]%城市生育率
%ShentYu=[ 0.0000 0 0 20.0279 111.0878 93.1916 11.8241 0.2269 0.0007 0.0000 0.0000 0 0 0 0 0 0 0]%town生育率
ShengYu=[ 0 0 0 61.0809 142.1392 113.2477 30.8924 2.8852 0.0923 0.0010 0.0000 0 0 0 0 0 0 0]%农村生育率
p=zeros(18,18);%p表示p矩阵, b=ShengYu*5/1000;%为矩阵赋值,第一列为当年按年龄分段生育率 c=1/(1+ht);
b=b*c;%c为当年的女性比率,c=1/(1+ht) p(:,1)=b;%s为存活率 for i=1:17 p(i,i+1)=s(i); end
dhj=A(18) A=A*p;
A(18)=A(18)+s(18)*dhj; fff(sum,:)=A; end
附录二.组合模型预测程序:
%%组合模型
%% 一元非线性回归
yt=[96259.0000 98705.0000 105851.0000 112704.0000 114333.0000 15823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000 125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ]
yt_=[97077.7451 101458.9137 105412.6482 108940.8426 112057.9144 114787.4901 117159.2664 119206.2898 120962.7665 122462.4186 123737.3420 124817.2841
125729.2541 126497.3789 127142.9323 127684.4757 128138.0659 128517.4964 128834.5488 129099.2384 ] %%GM模型
yt1=[98705.0000 105851.0000 112704.0000 114333.0000 115823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000
125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ] yt_1=[108504.1027 109772.7542 111056.2390 112354.7306 113668.4043 114997.4379 116342.0107 117702.3046 119078.5032 120470.7927 121879.3611 123304.3988
124746.0982 126204.6544 127680.2642 129173.1272 130683.4450 132211.4217 133757.2639 ] %%%%%%%%%%%%%%%%%%%%%%%线性回归
yt2=[ 96259.000 98705.0000 105851.0000 112704.0000 115823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000
125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ] yt_2=[104546.8857 107691.6466 109264.0271 110836.4075 112408.7880 113981.1684 115553.5489 117125.9293 118698.3098 120270.6902 121843.0707 123415.4511
124987.8316 126560.2120 128132.5925 129704.9729 131277.3534 132849.7338 134422.1143 ]
n=20;m=3;
sse=sum((yt-yt_).^2); mae=sum(abs(yt-yt_))/n; mse=sqrt(sum((yt-yt_).^2))/n; mape=sum(abs(yt-yt_)./abs(yt))/n;
mspe=sqrt(sum((abs(yt-yt_)./abs(yt)).^2));
r(1,1)=sse;r(1,2)=mae;r(1,3)=mse;r(1,4)=mape;r(1,5)=mspe; sse=sum((yt1-yt_1).^2); mae=sum(abs(yt1-yt_1))/n; mse=sqrt(sum((yt1-yt_1).^2))/n;
mape=sum(abs(yt1-yt_1)./abs(yt1))/n;
mspe=sqrt(sum((abs(yt1-yt_1)./abs(yt1)).^2));
r(2,1)=sse;r(2,2)=mae;r(2,3)=mse;r(2,4)=mape;r(2,5)=mspe; sse=sum((yt2-yt_2).^2);
mae=sum(abs(yt2-yt_2))/n;
mse=sqrt(sum((yt2-yt_2).^2))/n;
mape=sum(abs(yt2-yt_2)./abs(yt2))/n;
mspe=sqrt(sum((abs(yt2-yt_2)./abs(yt2)).^2));
r(3,1)=sse;r(3,2)=mae;r(3,3)=mse;r(3,4)=mape;r(3,5)=mspe;
%r(i,j)为一个i*j的矩阵 for j=1:5 for i=1:3
p(i,j)=r(i,j)/sum(r(:,j)) end end for j=1:5
E(j)=-sum(p(:,j).*log(p(:,j))); end
for j=1:5
e(j)=E(j)/log(m); end
for j=1:5
v(j)=(1-e(j))/(sum(1-e)); end
for j=1:5
r_min(j)=min(r(:,j)) end
for i=1:3
for j=1:5
d(i,j)=r_min(j)/r(i,j); end end
sum=0; for i=1:3 for j=1:5
sum=v(j)*d(i,j)+sum; end
kkkk(i)=sum; end
附录三.
长期预测各个年龄段的的总人数 :
( 单位(万人)
如需要更多数据,请来函索取。
中 国 人 口 预 测 模 型
摘要
本文对人口预测的数学模型进行了研究。首先,建立一次线性回归模型,灰色序列预测模型和逻辑斯蒂模型。考虑到三种模型均具有各自的局限性,又用加权法建立了熵权组合模型,并给出了使预测误差最小的三个预测模型的加权系数,用该模型对人口数量进行预测,得到的结果如下:
其次,建立Leslie人口模型,充分反映了生育率、死亡率、年龄结构、男女比例等影响人口增长的因素,并利用以1年为分组长度方式和以5年为
负指数函数,并给出了反映城乡人口迁移的人口转移向量。
最后我们BP神经网络模型检验以上模型的正确性
关键字:一次线性回归 灰色序列预测 逻辑斯蒂模型 Leslie人口模型
BP神经网络
一、问题重述
1. 背景
人口增长预测是随着社会经济发展而提出来的。由于人类社会生产力水平低,生产发展缓慢,人口变动和增长也不明显,生产自给自足或进行简单的以货易货,因而对未来人口发展变化的研究并不重要,根本不用进行人口增长预测。而当今社会,经济发展迅速,生产力达到空前水平,这时的生产不仅为了满足个人需求,还要面向社会的需求,所以必须了解供求关系的未来趋势。而人口增长预测是对未来进行预测的各环节中的一个重要方面。准确地预测未来人口的发展趋势,制定合理的人口规划和人口布局方案具有重大的理论意义和实用意义。 2. 问题
人口增长预测有短期、中期、长期预测之分,而各个国家和地区要根据实际情况进行短期、中期、长期的人口预测。例如,中国人口预期寿命约为70岁左右,因此,长期人口预测最好预测到70年以后,中期40—50年,短期可以是5年、10年或20年。根据2007年初发布的《国家人口发展战略研究报告》(附录一)及《中国人口年鉴》收集的数据(附录二),再结合中国的国情特点,如老龄化进程加速,人口性别比升高,乡村人口城镇化等因素,建立合理的关于中国人口增长的数学模型,并利用此模型对中国人口增长的中短期和长期趋势做出预测,同时指出此模型的合理性和局限性。
二、问题的基本假设及符号说明
问题假设
1.假设本问题所使用的数据均真实有效,具有统计分析价值。
2.假设本问题所研究的是一个封闭系统,也就是说不考虑我国与其它国家的
人口迁移问题。
3.不考虑战争 瘟疫等突发事件的影响
4.在对人口进行分段处理时,假设同一年龄段的人死亡率相同,同一年龄段
的育龄妇女生育率相同。
5.假设各年龄段的育龄妇女生育率呈正态分布
6.人类的生育观念不发生太大改变,如没有集体不愿生小孩的想法。 7.中国各地各民族的人口政策相同。
符号说明
ai(t)--------------------第ci(t)--------------------第
k
t时间区间内第i个年龄段人口总数
t时间区间内第i个年龄段人口总数占总人口的比例 t时间区间内第i个年龄段中第k年龄值人口总数占总人
ci(t)--------------------第
口的比例
A(t)--------------------第P(t)--------------------第
t时间区间内各年龄段人口总数的向量 t时间区间各年龄段人口总数向量转移矩阵
bi(t)-------------------第di(t)-------------------第di(t)-----------------第
k
t时间区间内第i个年龄段人的生育率 t时间区间内第i个年龄段人的死亡率
t时间区间内第i个年龄段中第k年龄值的死亡率 t时间区间内第i个年龄段人的存活率 第t时间区间男性人数与女性人数的比值 t时间区间内第i个年龄段育龄妇女的生育率
si(t)-------------------第
h(t)---------------------
ei(t)---------------------第
m---------------------------每个年龄段上年龄值的数目
三 问题分析
本问题是一个关于人口预测的问题,与以往不同,本问题需要根据中国特殊的国情去研究,我们根据对问题的分析并结合实际情况认为对人口产生主要影响的因素有以下四个:生育率、死亡率、年龄结构、男女比例。在这里需要说明的是对于人口产生影响的一些因素,如经济发展状况,生态环境情况、已婚夫妇对生育所持的态度、医疗技术的发展等,我们认为它们对人口的增长是通过作用于以上四个指标而间接发挥作用的。而对于诸如战争爆发、疾病流行等突发因素,由于其不可预测性,我们不考虑
1.生育率
生育率代表育龄妇女生育人口的能力,从一定意义上讲生育率的高低控制着人口增长率高低,通常来说生育率越高人口增长率越高,所以说生育率是人口增长的源头。生育率的影响因素很多,首先是年龄因素,不同年龄段的育龄妇女的生育率不同,通常20岁至30岁的育龄妇女的生育率最强;此外是地域因素,受政策因素、观念认识、周边环境等影响乡村育龄妇女的生育率高于城市育龄妇女的生育率;还有其它因素的影响,比如大规模疾病会降低育龄妇女的生育率。
2.死亡率
死亡率表示一定时期内一个人口群体中死亡的人数占该人口群体的比值,和生育率一样死亡率的高低同样控制着人口增长率高低,如果说生育率是人口增长的源头,则死亡率是人口增长的汇点。同样影响死亡率的因素很多,首先不同年龄段的死亡率不同,通常老年人和刚出生的婴儿的死亡率较高;从长远来看,随着医疗水平的提高,整个人口群体的死亡率将会成下降趋势;此外一些突发事件,如战争、疾病等,将会使使那一段的人口死亡率大幅度提高。
3.年龄结构
年龄结构反映了总体人口在各年龄段分布情况,年龄结构蕴涵的信息量很大,从其中我们可以实现对很多问题的分析,比如从年龄结构我们可以分析出社会的老年化程度,此外从年龄结构我们可以判断出不同时间段人口出生的情况,比如年龄结构不仅反映了总体人口在各年龄段分布情况,而且考虑到不同年龄段人口生育率、死亡率不同等情况,我们可以在年龄结构中有效反映这些差异
4.男女比例
男女比例反映了总体人口中男性与女性人数的比较关系,男女比例值能反映出体人口中男性与女性人数是否协调,男女比例主要受男女出生比和男女死亡率的影 响,男女出生比正常范围在103-107,也就是说出生100个女儿的同时会有103 —107个男儿出生,但是在现实社会中,女性死亡率低于男性,所以男性与女性人数大致相等,社会维持在一个稳定状态。但目前我国男女出生比超过110,这不仅将导致男女比例失调,还会对人口的预测产生影响,所以在人口预测时必须将男女比例问题考虑进去。
考虑到人口预测分为中短期预测和长期预测,两类预测因为涉及的时间长短不同,所以考虑的因素不同,采用的方法不同。
对于中短期预测,我们假设生育率、死亡率、年龄结构、男女比例均维持在同一稳定水平,这样我们采用方法有很多,。
对于长期预测,我们需要考虑生育率、死亡率、年龄结构、男女比例等因素随时间变化,此外城乡人口迁移对城乡人口结构产生影响,尽管以上因素短期内积累效应较小,但在长期中必须考虑。
在预测方法上我们选用了基于以往人口数据的一次线性回归,灰色、时间序列预测,逻辑斯蒂模型和基于年龄结构并生育率、死亡率随时间Leslie人口模型
四 数学模型
4.1.熵权组合模型
有关于人口增长预测的模型很多,比如灰色GM(1,1),移动平均数法,指数平滑法,一元线型回归,马尔萨斯人口模型,宋健人口模型等等,但是每种预测方法的精度往往也不同。组合模型和单个模型比起来,具有较高的预测精度,组合预测的关键就在于确定各个预测方法的权重。
本文将从一个新的角度进行研究,即从信息论的观点出发,根据各个体预测方法误差指标的信息熵,确定组合预测模型的权重,进行人口组合预测模型。
本文选用了一元线性回归法,逻辑斯蒂模型法,灰色GM(1,1)模型法对中国人口增长进行预测。而1978至2005年的数据见本文表一。
.4..1.1灰色预测模型 1.模型建立
灰色系统是指部分信息已知,部分信息未知的系统。灰色系统的理论实质是将无规律的原始数据进行累加生成数列,再重新建模。由于生成的模型得到的数据通过累加生成的逆运算――累减生成得到还原模型,再有还原模型作为预测模型。
预测模型,是拟合参数模型,通过原始数据累加生成,得到规律性较强的序列,用函数曲线去拟合得到预测值。 灰色预测模型建立过程如下:
1) 设原始数据序列X0有n个观察值,X累加生成新序列 X和函数曲线。
2) 利用拟合出来的函数,求出新生序列X1的预测值序列X(1) 3) 利用X(0)(k)X(1)(k)X(1)(k1)累减还原:得到灰色预测值序列:
.,0nm X0X01,X0 (共n+m个,m个为未来的预测值)。 2,..X
1
0
X
0
1,X02,...,X0n,通过
X
1
1,X12,...,X1n,利用新生成的序列X1去拟
将序列X0分为Y0和Z0,其中Y0反映X0的确定性增长趋势,Z0反映X0的平稳周期变化趋势。
利用灰色GM(1,1)模型对X0序列的确定增长趋势进行预测 2 模型求解
根据2006全国统计年鉴数据整理得到全国历年年度人口统计表如表1.
根据上述数据,建立含有20个观察值原始数据序列X0:
X
0
96259
[**************]04[***********]
130756
利用Matlab软件对原是数列X0进行一次累加,得到新数列为X1,如表2:
表2:新数列X1误差和误差率
1、利用表2,拟合函数,如下:
e43 x(t1)92800
0.011t624
91 83784
2、精度检验值
c=0.3067 (很好) P=0.9474 (好)
3、得到未来20年的预测值:
4.1.2一元线性回归法
根据表一中的数据,本文建立一元线性回归模型YabX进行预测;
Y为人口数 单位:万人 X为年份。利用Matlab软件,用麦夸特法进行回归拟合,得到拟核值及回归方程,如下:
Y102974.50531572.3805X 相关系数:R=0.9359
4.1.3 逻辑斯蒂模型(Logistic growth model)
考虑自然资源和环境对人口的影响,并以Nm记自然资源和环境条件所能允许的最大人口数。把人口增长的速率除以当时的人口数称为人口的净增长率。如果人口的净增长率随着N(t)的增加而减小,且当N(t)Nm时,净增长率趋于零。因此人口方程可写成
dN(t)dt
r(1
N(t)Nm
)N(t)
其中r为常数,此模型就叫逻辑斯蒂模型。
我们把1978年至2005年全国历年年底总人口的数值组成一个观察矩阵,其中的每一个数值称之为观察值。本文利用spss软件,得出与观察值一一映射的拟核值,残差值和cook距离,见下表:
表九 用spss软件得到各观察值所对应的拟核值,残差值和标准残差
从新数据得到 F=372.3471 p-值=0.001
本文建立逻辑斯蒂模型:y130517.5/(1e0.8840.185x)
相关系数R=0.9888
4.1.4. 组合模型建立
1、熵权法的概念及基本步骤
熵权法是一种决定指标的方法,我们知道,综合指标取决于单个指标数的确定,一般情况下的权重是根据经验来确定的,但是这种确定权重的方法缺少科学根据,也不能保证确立的综合指标能反映原始指标的大部分信息,且权重的确立因人而异,所以其应用受到了限制,而熵权法就能够避免这些问题,使权重的确立具有科学的根据,具有说服力。熵权法的步骤确立如下: ① 计算第j项指标下第i个方案的指标比重pij
yij
m
i1
yij
② 计算指标j的熵值 ejkpijlnpij (k
i1
m
1lnm
)
③ 计算第j项指标的差异系数 gj1ej ④ 定义权重wij
gj
m
j
g
i1
则 wij就为熵权法确定的权重。
2、误差指标的选举
为了能全面的各个预测方法以及组合预测的预测效果,必须制定一套切实可行的误差指标。按照预测效果的评价惯例,本文选取如下指标作为参考: (1)、平方和误差
n
2
SSE
t1
(yiyi)
(2)、平均绝对值误差
MAE
1
n
n
yiyi
t1
(3)、均方误差
MSE
n
(4)、平均绝对值百分比误差
MAPE
1
n
t1(yiyi)
yi
(5)、均方百分比误差
MSPE
3、组合模型权重的确定
设以选定m种个体预测方法,n个误差指标,m种个体预测方法对应n个误差指标构成了评价指标值矩阵;
R(rij)mn
第j个指标下第i种个体方法的指标比重值Pij为
m
Pijri/j
t1
r i
j
第j个指标的熵值为:
m
EjPijlnPij
t1
记
ejlnEj 第i个指标的权重为:
m
j(1ej)/
t1
(1e
j
)
记矩阵R中每列最优值为rj,对该矩阵所有元素做标准化处理,可得:
r/r指标j的指标值越大越好jij
dij
r/r指标j的指标值越小越好ijj
这样,各个体预测方法的熵权评价值i,可以表示为:
m
i
t1
d(i0,1,2,m ,jij
)
将上式进行归一化处理,即可以得到各个个体的权重。
4.1.6熵权组合模型求解
本文利用Matlab软件对上述的模型、指标进行综合的运算处理,得到熵权系的基本数据资料,见下表:
加权系数为:0.24282,0.34055,0.41663。
4.2 Leslie人口模型
4.2.1模型建立
在这里我们将人口按年龄大小等分为n个年龄组,记i=1,2,… , n
同时将时间离散为时段,长度与年龄组区间相等,记k=1,2,…
定义ai(t)为第t时间区间内第i个年龄段人口总数,bi(t)为第t时间区间内第i个年龄段人的生育率。
则有下面关系:
n
a1(t1)
a(t)b
i
i
i1
定义第i 年龄组在1时段内的死亡率为di, 则存活率为si=1- di 则有下面关系
ai1(t1)ai(t)si,i1,2,,n1
定义A(t)为第t时间区间内各年龄段人口总数的向量
A(t)a1(t),a2(t),an(t)
定义P(t)为第t时间区间各年龄段人口总数向量转移矩阵
b1b2
P(t)
bn1bn
s1000
0s20
0
00 sn10
由以上定义有
A(t1)A(t)P(t)
进而有以下关系
n1
A(t)A(1)P(i)
i1
需要说明的是为减小误差每次计算A(t)完后用 公式an(t1)an(t)snan1(t)sn1校正an(t1)
4.2.2数据分析及处理
我们分别对m=1和m=5进行说明 m表示每个年龄段上年龄值的数目 4.2.2.1对于m=1的情况,
1、各年龄分层人口占总人口的比率
对于m=1的情况,各年龄分层人口占总人口的比率就是各年龄值占总人口的比率,
为消除各年数据随机性我们我们采用对各年数据取平均值的方法得到数据。
2、各年龄分层人口的死亡率
与上面分析相同我们采用对各年数据取平均值的方法得到数据。 3、各年龄分层上育龄妇女的生育率
通过观察我们发现2003年生育率很低,我们猜想这是由于那一年有非典的原因,因此在剔除这一年的数据后对各年数据取平均值的方法得到数据。
我们假设各年龄分层上育龄妇女的生育率呈正态分布进行数据拟合。
图2 m=1时育龄妇女的生育率正态分布图
4.2.2.2 对于m=5的情况
为了实现年龄结构分析,同时也为了对生育率和死亡率这些与年龄段有明显联系的指标分析
我们决定对人口统计数据进行年龄分层处理。具体实现办法为以5年为年龄分段长度对附件中数据进行分层,例如0-4岁为第1年龄段,15-19岁为第4
年龄段,90岁以上老人由于所占比例较小,不对统计产生显著影响,故与最后一组一起研究。
需要说明的是与m=1情况的处理方法一样,我们先对各年数据取平均值的方法得到分析数据。
1.各年龄分层人口占总人口的比率
附表的数据给出了不同年龄值男性和女性人数占总人数的比率,对于某一年龄段人口占总人口的比率为该年龄段中各年龄值男性或女性人数占总人数的比率之和,公式如下
5
cij(t)
c
k1
kij
(t)
式中 j=1,2 其中1表示男性,2表示女性
附表中给出的数据是分别给出男性比率和女性比率,这里由于我们要把男女作为一个整体,所以我们对各年龄分层男性比率和各年龄分层女性比率相加得到各年龄分层人口占总人口的比率,公式如下
ci(t)ci1(t)ci2(t)
式中ci(t)表示第t时间区间内第i个年龄段人口总数占总人口的比例
ci1(t)表示第
t时间区间内第i个年龄段中男性比率
ci2(t)表示第t时间区间内第i个年龄段中女性比率
2. 各年龄分层人口的死亡率
各年龄分层男性死亡率或女性死亡率为各年龄分层中不同年龄值男性死亡率或女性、系数加权得到 ,公式如下:
5
c
dij(t)
k1
kij5
(t)d
kij
kij
(t)
(t)
c
k1
式中 j=1,2 其中1表示男性,2表示女性
与上面一样我们对各年龄分层男性死亡率和各年龄分层女性死亡率系数加权得到第t时间区间内第i个年龄段人的死亡率
di(t)
ci1(t)di1(t)ci2(t)di2(t)
ci1(t)ci2(t)
式中di(t)表示第t时间区间内第i个年龄段人的死亡率 di1(t)表示第t时间区间内第i个年龄段男性的死亡率
di2(t)表示第t时间区间内第i个年龄段女性的死亡率
在这里需要说明的是第0岁较高,出现奇异,分析原因我们认为这是婴儿的出生造成的,
我们对第1个年龄段人的死亡率进行校正,
5
c
d1j(t)
k2
k1j5
(t)d
k1j
k1j
(t)
(t)
c
k2
说明:为便于表示令第0岁为第1年龄值
3. 各年龄分层上育龄妇女的生育率
同以上分析ei(t)为每个年龄段上对应各个年龄值的育龄妇女的生育率之和 我们假设ei(t)呈正态分布:
图3 m=5时育龄妇女的生育率正态分布图
4.2.3模型求解
4.2.3.1对于m=1的情况
图4 m=1时人口预测图象
4.2.3.2对于m=5的情况
表12 m=5时人口预测
图5 m=5时人口预测图象
4.2.4模型改进
1.考虑到生育率和死亡率是随时间变化的,我们可以定义生育率和死亡率为时间函数
(1)生育率
影响生育率因素有受政策因素、观念认识、周边环境等,通常来说农村的生
育率高于城市,为了有效区分这种差异性,我们定义b(t)为反映城、镇、乡平均生育率水平的基准生育率,定义cb(t)、tb(t)、vb(t)分别为城、镇、乡平均生育率 则cb(t)a1b(t),tb(t)a2b(t),vb(t)a3b(t)
其中a1、a2、a3为反映生育率高低的系数,系数的大小根据具体情况确定 显然有a1a2a3
考虑到随着时间的推移,计划生育政策深入人心,农村生育率将降低 用下面函数反映这种变化
vb(t)vb(0)ae
bt
式中a,b为参考系数
(2)死亡率
随着时间的推移,医疗水平的提高,死亡率将下降,但死亡率中有一部分是非疾病死亡,对于青年人死亡率比较平稳,死亡率变化主要体现在老年人。
定义di(t)为第t时间区间内第i个年龄段人的死亡率
di(0),il
di(t)bt
di(0)ae,il
式中a,b为参考系数,用来区分青年与中老年
2.考虑到城乡人口转移因素
城乡人口转移将会对城乡人口结构产生影响,因此必须进行研究,考虑到人口主要是从镇转入城,从乡转入城,从乡转入镇
因此定义B(t)为从镇转入城的转移向量,C(t)为从乡转入城的转移向量,D(t)为从乡转入镇的转移向量。 以C(t)为例说明转移向量,
C(t)w1(t)v1(t),w2(t)v2(t),,wn(t)vn(t)
式中vi(t)表示第t时间区间内第i个年龄段的农村人数,
wi(t)表示第t时间区间内第i个年龄段人的农村转入城市的百分比 则A’(t)=A(t)+B(t)+C(t) 表示城乡人口转移后的人口向量 每次计算完A(t)A(t1)P(t1)
再计算A’(t)=A(t)+B(t)+C(t)
4.2.5模型优缺点分析
1.Leslie人口模型可以分析不同年龄组生育率与死亡率不同的情况 2.Leslie人口模型中可以考虑生育率与死亡率随时间变化的情况 3.Leslie人口模型中可以分析出年龄结构的情况
4.Leslie人口模型中对给出的关于年龄结构的统计数据要求较高 5.Leslie人口模型对男女比例不平衡情况反映敏感
6.Leslie人口模型中选取分组的年龄段长度不同,适于的预测期长短不同
4.3 BP神经网络人口预测模型
基于BP神经网络的时间序列预测模型与传统模型不同的是:此模型只需以历史数据作为输入,通过抑制与激活神经结点,自动决定影响性能的参数及影响程度,自动形成模型,无需进行模型假设,再加上神经网络对复杂的非线性系统具有曲线拟核能力,预测能力强,所以是合适的对比检验模型。
matlab实现:
P为输入样本矢量集;T为对应的目标样本矢量集.设:输入样本 p=[1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 ] (年份归一化后的数据)
p=[0.1996 0.1997 0.1998 0.1999 0.2 0.2001 0.2002 0.2003 0.2004 0.2005] 输出样本观测值(对应1996-05年的总人口归一化后的数据):
T=[0.122389 0.123626 0.124761 0.125786 0.126743 0.127627 0.128453
0.129227 0.129988 0.130756]
采用神经网络模型进行运算,系统仿真 产生输入数据的收敛结果见图示:
图6:BP训练函数
表13:BP算法的结果:
五 模型优缺点的评判
在上文中,每个模型的后面,针对该模型的优缺点本文都做了深刻地评判,此时就不再重复赘言了,却还没有从宏观角度出发,对本文的所有模型进行整体的优缺点的总评判。
优点:
1、具有很好的创新性,在对传统模型的理解的基础,取模型之长,利用熵权法对模型进行组合预测,大幅度提高了预测准确度;
2、本文的思路宽阔,在不同时期,建立起不同的模型,能够与实际紧密的联系,结合当前具体国情,对问题进行求解,使该模型具有很好的推广性和通用性; 3、模型的的计算采用专业软件求解,例如Matlab软件,spss软件,dps软件等,
数据可信度较高。
4、对于题目附录里为涉及到的数据,均到“中国统计局”下载官方数据加以补充,并且对论文中涉及到的众多影响因素进行了量化处理,使得论文的说服里更强,实际性更高。
缺点
1、影响人口增长预测的动态因素很多,而且不可能都能波及到,所以模型与实际还是有一些距离的;
2、不同模型在相应的时间阶段具有很高的预测能力,但是一旦脱离了这个时间阶段,模型的预测能力就会回落。
六 全文总结
人口预测就是根据一个国家、一个地区人口的现状,考虑到社会政治经济条件对人口再生产和转化的影响,分析其发展规律,运用科学的方法测算未来某个时期人口的发展状况。人口的预测包括通常指的是中短期预测和长期预测。为了能够提供合理地预测值,本文进行了深刻地研究,建立了4个模型,进行全方位的深刻讨论。
通过,灵敏度的分析比较,模型一适合中短期的预测,模型二综合面广,考虑全面,在本文假设的条件下,就符合中国人口特点,例如,老龄化进程加速、出生人口性别比持续升高,以及乡村人口城镇化都作为模型中的因子元素,对中国的人口未来长期发展状况进行了科学性的预测。
本论文的创新性和技术性主要表现在这几个方面:
1、本文为了提高预测的精确度,对于各种的传统预测方法,有针对性的做了筛
选,通过权重关系,建立起了组合模型,特别地在权重问题上,采用了熵权法分配权重,思路巧妙,可以为以后提供合理参考。
2、本文建立BP神经网络模型,无需进行模型假设,同时能利用模型自身对复
杂的非线性曲线进行拟核,利用拟核函数对人口增长趋势作出了合的预测。 3、本文与计算机实用软件,计算机编程紧密的结合在了一起,在本文中运用了
诸如spss,dps等一些统计性软件,同时利用Matlab进行了一些编程,大大提升了数据的处理能力,也使得数理统计变得不在十分棘手了。 4、本文的模型具有很好的推广性,而且在其它领域发挥很好的效果。
七 相关建议
一、最近几年中国人口发展特点
(一)人口增长速度快 但增长速度回落
(二)农村人口比重大 ,但人口城市化快速发展
(三)人口老龄化加剧 男女性别比偏高有所回落
二、中国人口的发展趋势
预测中国人口的发展趋势有以下几点:
①目前生育率经过近二十年的控制已达到了较低水平,自然增长率已由1974年22.2‰下降到1983年的11.5‰,几乎降低了一半,这是世界人口史上罕见的, 但生育率继续下降的余地已经不大了。
②由于20世纪60—70年代生育高潮形成的人口年龄结构的影响,在1995年前后形成一个生育高峰,平均每年进入婚育年龄的人数在1100万对以上,生育率的降低较为困难。
③中国目前人口死亡率在世界上是属于较低的,随着经济的迅猛发展,生活水平和医疗水平的进一步提高,死亡率继续下降是有可能的。
④人口城乡结构比较落后,乡村人口比重依然很大,且在相当长的时间里降低乡村的人口生育率仍然较为困难。
综上所述,以目前13亿人口为基础,人口增长率能继续得到控制,到21世纪中期将达到16亿。人口学家普遍认为,这是中国人口的极限,即中国土地可负荷和供养的最大人口数。此后我国人口数会略有回落,并在某一时期到达最佳人口数而稳定下来。
八 参考文献
[1] 王能超,数值分析简明教程,北京:高等教育出版社,1999 [2] 廉庆荣,线性代数与解析几何,北京:高等教育出版社,2002
[3] 张兴永,MATLAB软件与数学试验,江苏:中国矿业大学出版社,2000 [4] 张兴永,数学建模简明教材,江苏:中国矿业大学出版社,2004 [5] 华东师大数学系,数学分析(第三版),北京:高等教育出版社,1998 [6] http://www.stats.gov.cn/(中国国家统计局网)
附录一.:
%%%此程序解决长期预测问题
ht=1.2121 ;total_person_05=130756;kind=9;m=3
%1.1392 1.1721 121.21 表示男女人口比重 %total_person_05表示05年的总人数 %kind表示哪种人口:城市或镇„„; %ht表示05年的男比女的比率;
%a5表示2005年所有人口分年龄段的占的比率
%A表示第t时间段时内各年龄段人口总数占总人口的比例向量
bili=a5(:,kind)+a5(:,kind+2)%比例表示人该年龄段的人口比例,a5(:,kind)男性比率 a5(:,kind+2) 女性比率 dead_lv=final_siwang_lv(:,m); dead_lv=dead_lv/1000;
s=1-dead_lv;
A=bili*total_person_05/100;%各年龄段的人口数 A=A';
for sum=1:9%预测45年,5年为一个周期 %ShengYu =[0 0 0.00021591 0
10.876 60.401 82.094 27.307 2.2229 0.0442840 0 0 0 0 0]%城市生育率
%ShentYu=[ 0.0000 0 0 20.0279 111.0878 93.1916 11.8241 0.2269 0.0007 0.0000 0.0000 0 0 0 0 0 0 0]%town生育率
ShengYu=[ 0 0 0 61.0809 142.1392 113.2477 30.8924 2.8852 0.0923 0.0010 0.0000 0 0 0 0 0 0 0]%农村生育率
p=zeros(18,18);%p表示p矩阵, b=ShengYu*5/1000;%为矩阵赋值,第一列为当年按年龄分段生育率 c=1/(1+ht);
b=b*c;%c为当年的女性比率,c=1/(1+ht) p(:,1)=b;%s为存活率 for i=1:17 p(i,i+1)=s(i); end
dhj=A(18) A=A*p;
A(18)=A(18)+s(18)*dhj; fff(sum,:)=A; end
附录二.组合模型预测程序:
%%组合模型
%% 一元非线性回归
yt=[96259.0000 98705.0000 105851.0000 112704.0000 114333.0000 15823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000 125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ]
yt_=[97077.7451 101458.9137 105412.6482 108940.8426 112057.9144 114787.4901 117159.2664 119206.2898 120962.7665 122462.4186 123737.3420 124817.2841
125729.2541 126497.3789 127142.9323 127684.4757 128138.0659 128517.4964 128834.5488 129099.2384 ] %%GM模型
yt1=[98705.0000 105851.0000 112704.0000 114333.0000 115823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000
125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ] yt_1=[108504.1027 109772.7542 111056.2390 112354.7306 113668.4043 114997.4379 116342.0107 117702.3046 119078.5032 120470.7927 121879.3611 123304.3988
124746.0982 126204.6544 127680.2642 129173.1272 130683.4450 132211.4217 133757.2639 ] %%%%%%%%%%%%%%%%%%%%%%%线性回归
yt2=[ 96259.000 98705.0000 105851.0000 112704.0000 115823.0000 117171.0000 118517.0000 119850.0000 121121.0000 122389.0000 123626.0000 124761.0000
125786.0000 126743.0000 127627.0000 128453.0000 129227.0000 129988.0000 130756.0000 ] yt_2=[104546.8857 107691.6466 109264.0271 110836.4075 112408.7880 113981.1684 115553.5489 117125.9293 118698.3098 120270.6902 121843.0707 123415.4511
124987.8316 126560.2120 128132.5925 129704.9729 131277.3534 132849.7338 134422.1143 ]
n=20;m=3;
sse=sum((yt-yt_).^2); mae=sum(abs(yt-yt_))/n; mse=sqrt(sum((yt-yt_).^2))/n; mape=sum(abs(yt-yt_)./abs(yt))/n;
mspe=sqrt(sum((abs(yt-yt_)./abs(yt)).^2));
r(1,1)=sse;r(1,2)=mae;r(1,3)=mse;r(1,4)=mape;r(1,5)=mspe; sse=sum((yt1-yt_1).^2); mae=sum(abs(yt1-yt_1))/n; mse=sqrt(sum((yt1-yt_1).^2))/n;
mape=sum(abs(yt1-yt_1)./abs(yt1))/n;
mspe=sqrt(sum((abs(yt1-yt_1)./abs(yt1)).^2));
r(2,1)=sse;r(2,2)=mae;r(2,3)=mse;r(2,4)=mape;r(2,5)=mspe; sse=sum((yt2-yt_2).^2);
mae=sum(abs(yt2-yt_2))/n;
mse=sqrt(sum((yt2-yt_2).^2))/n;
mape=sum(abs(yt2-yt_2)./abs(yt2))/n;
mspe=sqrt(sum((abs(yt2-yt_2)./abs(yt2)).^2));
r(3,1)=sse;r(3,2)=mae;r(3,3)=mse;r(3,4)=mape;r(3,5)=mspe;
%r(i,j)为一个i*j的矩阵 for j=1:5 for i=1:3
p(i,j)=r(i,j)/sum(r(:,j)) end end for j=1:5
E(j)=-sum(p(:,j).*log(p(:,j))); end
for j=1:5
e(j)=E(j)/log(m); end
for j=1:5
v(j)=(1-e(j))/(sum(1-e)); end
for j=1:5
r_min(j)=min(r(:,j)) end
for i=1:3
for j=1:5
d(i,j)=r_min(j)/r(i,j); end end
sum=0; for i=1:3 for j=1:5
sum=v(j)*d(i,j)+sum; end
kkkk(i)=sum; end
附录三.
长期预测各个年龄段的的总人数 :
( 单位(万人)
如需要更多数据,请来函索取。