上海交通大学
硕士学位论文
人口年龄结构模型建模和预测
姓名:虞丽萍
申请学位级别:硕士
专业:控制理论与控制工程
指导教师:袁景淇
20070101
人口年龄结构模型建模和预测
摘 要
人口是一个动态系统。人口变化对未来经济、社会的发展有着直接的影响。人口年龄结构是人口研究的重要指标之一,人口年龄结构发展趋势的预报对人口政策的制定有着非常重要的作用。本文以离散形式的人口发展方程为主模型。在此基础上,分别建立了生育率、死亡率和迁移模型,以预测人口生育率、死亡率、流动人口和人口年龄结构的变化趋势。与传统模型相比,本文所提出的基于随机分布函数的生育率组合模型和死亡率分段模型使模型精度得到了进一步的提高。
本文以中国历年统计数据为原始数据,验证了主模型和各子模型的有效性,并预测了2015年上海市人口年龄结构,绘制了人口年龄树。人口年龄树树形反映了人口结构的健康状态。通过分析人口年龄树的变化趋势,可以了解人口结构所存在的问题,为政府调控人口提供科学依据。
关键词:离散人口发展方程,生育率,死亡率,流动人口,人口预测,人口年龄树
MODELING AND FORECASTING THE
AGE STRUCTURE OF POPULATION
ABSTRACT
The population system is a dynamical system. The trend of a population will affect the development of the society and its economy. The age structure is one of the most important indexes in population research. The forecast of age structure plays an important role in making population policies. A discrete model of population development was applied in this paper. Fertility model, mortality model and immigration model were also established to forecast the fertility, mortality, immigration population and the age structure. Compared with traditional functions, both the composite fertility model which is based on random distribution functions and the segmented mortality model improved the models’ accuracy.
Historical Chinese population statistics were used to prove the validity of the models referred in this paper. The age structure of Shanghai in 2015 was forecasted and displayed in a tree-like graph. The shape of the population tree reflects the health condition of its age structure. By analyzing the development trend of the age structure, we can find population
problems and provide scientific evidence for government to control the population.
KEY WORDS: Discrete Population Development Equations, Fertility, Mortality, Immigration, Population Forecast, Age Structure Population Tree
图片目录
图1 人口金字塔·······································································································5 图2 人口年龄树·······································································································6 图3 人口结构的三种类型······················································································8 图4 人口状态方程控制框图················································································11 图5 人口发展方程的数据流图··············································································12 图6 三层BP神经网络的拓扑结构·······································································16 图7 世代生育率(CFR)与总和生育率(TFR)的比较············································18 图8 2000年分孩次的年龄别生育率模型拟合结果与统计数据比较···················24 图9 组合模型、对数正态分布模型及泊松分布模型精度比较···························27 图10 不同模型分年龄别生育率误差比较····························································28 图11不同模型对2004年分年龄别生育率的预测估计········································32 图12 组合模型对2015年全国分年龄别生育率的预测·······································32 图13 2003年中国人口死亡率三次样条插值结果与实际数据比较(男)·········35 图14 2003年中国人口死亡率三次样条插值结果与实际数据比较(女)·········36 图15 2001年中国人口死亡率分段模型拟合结果与实际数据比较··················41 图16 影响人口死亡率的因素················································································42 图17 参数a估计值································································································44 图18 参数b估计值·······························································································44 图19 参数c估计值································································································45 图20 2004年中国男性分年龄别死亡率预测值与实际值比较··························46 图21 2004年中国男性分年龄别死亡率预测值与实际值比较··························47 图22 2000年上海市外来人口按年龄别分布图·················································55 图23 2004年中国人口年龄树·············································································58 图24 2004年中国人口年龄结构预测值与实际值相对误差······························58 图25 上海市历年总和生育率··············································································64 图26 2015年上海市人口年龄树·········································································65
表格目录
表1 Lognormal和Poisson分布模型描述分孩次的年龄别生育率·······················22 表2 组合模型参数的估计值(最小二乘法)······················································25 表3 总和生育率GM(1,1)模型预测结果··························································31 表4 2003年中国分年龄组死亡率统计数据··························································34 表5 1989年中国人口死亡率各模型拟合均方根误差比较···································39 表6 1994年中国人口死亡率各模型拟合均方根误差比较···································39 表7 1998年中国人口死亡率各模型拟合均方根误差比较···································39 表8 2001年中国人口死亡率各模型拟合均方根误差比较···································40 表9 中国历年人均国民生产总值GNP·································································43 表10 上海市第五次人口普查外来人口年龄分布················································53 表11 上海市主要年份人口迁移数据····································································55 表12 上海市人口迁移数据预测············································································56 表13 2004年中国人口年龄结构············································································59 表14 人口年龄结构类型(国际通用标准)······················································59 表15 上海市总和生育率预测················································································64 表16 上海市2015年人口年龄树相关数据··························································65
符号说明
p(r,t)
µ
ϕ
N
β
h
g
kl
kp
kc
f
q
k,r,t ,r1 ,r2
a,b,u,A,B
α,β,µ,σ,c 人口年龄分布密度函数 死亡力(‰) 出生婴儿总数(人) 人口总数(人) 妇女平均生育率,即总和生育率(人)妇女生育模式(‰) 迁移人口数(人) Lognormal模型尺度变换因子 Poisson分布模型尺度变换因子 生育率组合模型尺度变换因子 生育率 死亡概率 模型参数
上海交通大学
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在年解密后适用本授权书。 本学位论文属于
不保密√。
(请在以上方框内打“√”)
学位论文作者签名: 虞丽萍 指导教师签名:袁景淇
日期:2007 年 2 月 26日 日期:2007 年 2 月 26日
– 82 –
上海交通大学
学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:虞丽萍
日期:2007 年 2 月 26 日
– 83 –
第一章 引言
1.1 研究背景
人口数量、质量和年龄分布直接影响一个地区的经济发展、资源分配、社会保障、社会稳定和城市活力。对此,单纯的人口数量控制(如已实施多年的计划生育)不能体现人口规划的科学性。政府决策部门需要更详细、更系统的人口分析技术,为人口发展策略的制定提供指导和依据。
长期以来,对人口年龄结构的研究仅限于粗线条的定性分析,只能预测年龄结构分布的大致范围,无法用于分析年龄结构的具体形态。随着对人口规划精准度要求的提高,通过数学方法来定量计算各种人口指数的方法日益受到重视,这就是人口控制与人口预测。
人口控制和人口预测是人口研究中的重要课题。准确的人口预测为制定合理的社会经济发展规划提供了科学依据。例如,要制定生育计划,就必须知道未来妇女的生育率;要制定社会保障体系,就必须知道未来老年人口动态变化量;要规划学校建设,就必须知道学龄人口数;要改善医疗保障,就必须对未来人口的死亡状况有清楚的认识;要确定人才引进策略和户籍管理制度,就必须了解迁移人口年龄分布及受教育情况。这些都离不开人口预测。政府可以根据这些未来人口信息状况,结合社会经济发展,在制定国民经济发展决策时,通过调控人口的方法对未来社会经济发展中的产业结构进行相应的调整,使劳动力资源得到充分地开发和利用,社
– 1 –
会资源得到合理分配,并采取措施提前应对由老龄化,低生育率等人口因素而可能产生的社会经济问题,从而使社会经济协调发展。
1.2 研究内容
结合人口发展的特点,人们建立了不同的人口模型,并利用统计数据加以验证和预测。各级政府部门和研究机构也建立了人口信息系统,用以提供制定人口政策和发展规划的参考。考虑到人口发展问题的复杂性和区域的差异性很大,本文以区域人口年龄结构为研究对象,以中国和上海市为预测实例,以历年人口统计数据为验证基础,建立人口循环增殖预测模型。在该模型的基础上,进一步建立出生率、死亡率、人口迁移等子模型,对未来人口结构发展趋势进行预报。模型结果用人口年龄树树形图来展示。通过观察人口年龄树树形的变化,获得对人口年龄结构的变迁轨迹和人口年龄树健康状况的直观判断,为制定人口调控政策提供科学的参考。
本文采用灰色系统模型等预测方法对生育率、死亡率、流动人口的变化趋势进行预测。预测所得的结果代入生育率、死亡率和迁移模型,可以计算出分年龄别的人口预测数据。上述预测数据作为人口发展方程的输入量,经过循环迭代,就能得到未来的分年龄性别的人口数。在此基础上,进一步计算可得各类人口指数。结合上述数据,本文对我国和上海市的当前人口状况和未来人口状况进行了详细的分析、比较,为政府人口政策的制定和实施提供宏观上的方向把握和微观上的数据的支持。
– 2 –
第二章 人口年龄结构主模型
2.1 人口概念辨析
本文所涉及的主要概念和定义有:
(1)人口:生活在一定社会生产方式、一定时间、一定地域,实现其生命活动并构成社会生活主体,具有一定数量和质量的人所组成的社会群体。
(2)出生率:指某年每1000人对应的活产数,又称总出生率或粗出生率。它反映人口的出生水平,一般以千分数表示。
(3)生育率:某年每1000名15-49岁妇女的活产婴儿数。又称一般生育率。该指标比出生率要精确一些,因为它将生育同可能生育的特定性别年龄的人口联系起来(通常是15-49岁的妇女),排除了年龄性别结构不同引起的偏差。生育率比出生率更能揭示生育水平的变化。
(4)总和生育率(TFR):指假设妇女按照某一年的年龄别生育率度过育龄期,平均每个妇女在育龄期生育的孩子数
(5)死亡率:一定时期内(通常为一年)死亡人数与同期平均人数(或期中人数)之比。说明该时期人口的死亡强度,通常用千分比表示。
(6)人口迁移:人口在地理上的位置变更。人口为了某种目的或动机,离开原来的居住地,时间或长或矩,距离或远或近,或者返回或者终生不再返回而定居于某地,
– 3 –
均称为人口迁移。
(7)人口增长率:人口增长程度或增长速度,即一定时期内人口增长数与人口总数之比。通常以一年为期计算,用百分数表示。
(8)人口性别比:指某一人口中男性对女性的比例,通常以每100个女性对应的男性数来表示。
(9)儿童妇女比:指某年每1000名妇女(15-49)对应5岁以下孩子的数目。这个指标可以从人口普查或抽样调查中得到,因此它可在出生统计不详细的情况下提供生育水平的数据。
(10)生育更替水平:生育更替水平是指这样一个生育水平,即同一批妇女生育女儿的数量恰好能替代她们本身。当净人口再生产率为1.00,总和生育率为2.1时,恰好等于更替水平。一旦达到生育更替水平,出生和死亡将逐渐趋于均衡,在没有国际迁入与迁出的情况下,人口将最终停止增长,保持稳定状态。
(11)人口年龄结构:某一年某一地区按年龄的人口总数。
(12)人口金字塔: 是形象地表示某一人口的年龄和性别构成的图形。水平条代表每一年龄组男性和女性的数字或比例(男左女右)。金字塔中各个年龄性别组相加构成了总人口。人口金字塔可以用1岁年龄组的数据绘制,如图1。
– 4 –
图1 人口金字塔(数据来源:1990年上海市人口年龄结构。男左女右)
Fig. 1 Population pyramid
(13)人口年龄树:是本文所提出的一种用来表述人口年龄结构的图形,与人口金字塔类似。图形外沿用光滑连续曲线代替人口金字塔的水平条型图,因其形状类似于树,将此类图形命名为人口年龄树,如图2。
– 5
–
图2 人口年龄树(数据来源:1990年上海市人口年龄结构。男左女右)
Fig.2 Age structure tree of population
2.2 人口结构分类
人口结构是反映人口年龄性别分布的重要指标,对人口变化和社会发展具有不容忽视的影响作用。人口结构是人口再生产的基础,任何时点上的人口结构都是历史人口生育、死亡和迁移的结果,又是研究未来人口过程的基础。人口结构对社会发展起着促进或制约的作用。本文以人口结构作为主要研究对象,既可以分析人口内部结构的特点与变动趋势,也可以反映人口发展的趋势和规律性,并进一步考察人口结构与社会经济因素的相互关系。
国际上通常将人口结构分为三类(见图3):
– 6
–
(1)增长型(年轻型):图形上表现为底部宽,顶部狭窄,即少年儿童人口比高,老年人口比低,显示人口快速成长。此类型人口结构的特点是死亡率快速衰减,而出生率未改变,或仅缓慢降低的结果。
(2)静止型(成年型):图形上表现为各年龄组的比例较相似。这一类型人口结构的特点是低死亡率及接近更替水平的生育率。只有当死亡率水平为千分之十至十五,妇女生育率低于2的情况存在至少20年,才会形成这类人口结构。大部分生活水准高,预期寿命长,及成长率低的发达国家属于此类型。
(3)缩减型(老年型):图形表现为顶部宽,底部相对较窄,显示一种负的人口成长结构。通常发生在长期死亡率超过出生率时。这种类型的人口通常面临低生育率和老龄化的问题。
(a) 增长型 (b) 静止型
– 7 –
(c) 缩减型
图3 人口结构的三种类型
Fig.3 Tree types of population structure
与人口金字塔相比,人口年龄树有明确的物理意义。它通过年龄树的生长变化来模拟人口结构的发展过程;用年龄树枝叶的生长来表征人口的年龄增长;用年龄树枝叶的凋零来表征人口的死亡;用人口年龄树树形的健康状况来反映人口结构的健康状况。
对照图1中的上海市人口年龄树可以发现,上海市目前的人口结构属于缩减型,顶端枝叶茂盛,而底端枝叶稀少,这样的人口年龄树已经与发达国家的形状相同。因此,上海市的人口年龄结构也面临与其它发达国家一样的问题,也就是人口负增长以及人口老龄化。
2.3 人口发展方程
按人口控制论的观点,人口状态指某一区域内人口按年龄分布的状况,人口状态随时间变化的过程叫人口发展过程。要对人口结构的变化趋势进行研究,就必须
– 8
–
建立一个人口发展的系统,设计合理的人口发展预测模型,对不同年龄、不同性别的人口数进行预测,并进一步得到各项人口指标。通过将这些人口指标与决策者关注的问题相联系,可以对人口问题进行定量与定性分析,为政策措施提供相应的参考方案。
根据不同时期不同地区人口发展的特点,专家学者建立了各种人口预测方法来模拟人口发展过程,如一元线性回归法[1]、自回归法[2]、指数函数法、幂函数法、多元回归模型法、灰色系统GM(1,1)法[3]、系统动力学法[4]等,上世纪70年代末80年代初,宋健、于景元等人建立了人口发展的偏微分方程[5] ,将我国的人口研究从定性分析引入定量分析,对人口数量和出生率、死亡率等人口指数进行了预测,因此应用最为广泛和成功。
由于人口政策的变动和生育习惯的改变,现今人口的生育模式、死亡率等参数已经发生了巨大的变化,当时建立模型的结论和条件已经不适用于现在的情况,本文在宋健等人工作的基础上,重新考虑现在的人口状况对人口动力系统的影响,计算并给出各种人口指数。
2.3.1 人口发展方程的连续形式
引起人口年龄结构变化的三大要素是出生、死亡、迁移,人口发展方程描述了人口年龄结构与出生率、死亡率和迁移人口数的关系,从动力学的角度反映了人口发展的变迁过程,人口发展方程的连续模型为:
– 9 –
∂p(r,t)∂p(r,t)=−µ(r,t)p(r,t)+g(r,t)+∂t∂r
p(r,t)=p0(r)
p(0,t)=ϕ(t)=µ(t)N(t)
ϕ(t)=β(t)∫h(r,t)k(r,t)p(r,t)drr1r2······························································(2.1)
式中,
p(r,t):人口年龄分布密度函数, p(r,t)=∂N(r,t)/∂r。N(r,t)表示t时刻某地区年龄小于r的人口的总数,是关于r的非减函数。
µ(r,t):某地区t时刻年龄为r的人的死亡率
ϕ(t): t时刻某地区单位时间内出生婴儿总数
N(t): t时刻某地区人口总数
β(t): 妇女平均生育率,即总和生育率
h(r,t):妇女生育模式函数
k(r,t):性别比例函数
g(r,t):某地区t时刻迁移人口数
r1,r2:妇女育龄区间,通常r1=15,r2=49
从控制论的角度来看,人口状态p(r,t)为输出量,通过可控变量妇女生育率β(t)可调控出生人口数ϕ(t),进而影响人口状态,形成反馈控制(图4)。
– 10 –
图4 人口状态方程控制框图
Fig.4 Control chart of population development equations
2.3.2 人口发展方程的矩阵形式
根据年龄移算理论[6],可以从某一时点的某年龄组人数推算一年(或n年)后年龄相应增长一岁(或增长n岁)的人口数。在这个人口数的基础上减去相应年龄的死亡人数,并考虑人口迁移,就可以得到未来某年龄组的实际人口数。对于0岁的新生人口,则需要通过生育率作重新计算。
当社会经济条件变化不大时,各年龄组死亡率比较稳定,相应活到下一年龄组的比例即存活率也基本上稳定不变。因而可以根据现有的分性别年龄组存活率推算未来各相应年龄组的人数。
即,若某t年年初有r岁人口数xr(t)人,次年(t+1)年年初这些人长了一岁为(r+1)岁。若µr(t)为这批人在一年内的死亡率,gr(t)为迁移进来的人口数,则(t+1)年年初(r+1)岁的人口数为xr(t)×(1−µr(t))+gr(t)。0岁人口数x0(t)需通过妇女生育情况另行计算,人口发展方程数据流图见图5。
– 11
–
图5 人口发展方程的数据流图
根据上述推导,以一岁一组的人口统计数据为观测值,将人口发展方程离散化,用矩阵形式表示,可以得到人口发展方程的另一种形式:
x(t+1)=H(t)x(t)+β(t)B(t)x(t)+G(t)
x0(t+1)=(1−µ00(t))Ψ(t)
Ψ(t)=β(t)∑ki(t)hi(t)xi(t)
i=r1r2
x(t)=(x0(t),x1(t),……xm−1(t))T m为最大存活年龄
G(t)=(g0(t),g1(t),……gm(t))T
– 12
–
001−µ(t)01H(t)=01−µ2(t)ΛΛΛΟ00000 1−µm(t)00
0Λ0ΛB(t)=Μ0Λ0br1(t)Λ00ΛΜ0Μ0Λbr2(t)0Λ00ΛΜ0Μ0Λ00Μ0·········································(2.2) bi(t)=(1−µ00(t))(1−µ0(t))ki(t)hi(t),i=r1…r2,
bi(t):某地区t年i岁妇女所对应的生育率
本文以人口发展矩阵方程为主模型,并在此基础上进一步建立生育率、死亡率、迁移率的子模型。
2.4 人口预测方法概述
2.4.1 自回归法
假定人口发展过程近似于直线状,由于当前人口数量受到历史变化状况的影响,可以用自回归模型来预测未来人口数。
X(t+1)=a+bX(t)···························································(2.3) 其中,X(t)为人口数,a、b为参数。
2.4.2 指数函数法
假定人口发展过程近似于指数状态,前一段时间内发展缓慢,越往后人口增长
– 13 –
越快,可以用指数模型预测人口数。
X(t)=aebt···································································· (2.4) 其中,a、b为参数。
2.4.3 幂函数法
假设人口随时间变化曲线前部分斜率大,后部分斜率逐渐减小,可以选用幂函数来预测。
X(t)=atb····································································· (2.5)
其中,a、b为参数。
2.4.4 多元回归模型法
人口系统除了人口本身,还受经济、政策等各种要素的影响。人口发展是人口与各要素之间相互关联的结果。如果将这些因素都考虑在内,预测未来人口,称为多元回归。
Y=b+b1x1+b2x2+Λ+bnxn·····································(2.6)
其中x1、x2…xn为影响人口的各种因素,b、b1…bn为参数。
2.4.5 灰色系统GM(1,1)法
在没有规律可寻或资料不全的情况下,可以用灰色系统GM(1,1)进行预测,模型为
x(k+1)=(x(1)⋅u/a)⋅e−ak+u/a·······························(2.7)
式中,x(k)对应一组人口数据序列
2.4.6 时间序列法[29,30]
– 14 –
时间序列预测方法的基本思想是:预测一个现象的未来变化时,用该现象的过去行为来预测未来。即通过时间序列的历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来做出预测。时间序列预测法是一种重要的预测方法,对资料的要求比较单一,只需变量本身的历史数据。但对数据的完整性及样本数量要求较高。用于人口数据预测的时间序列模型主要有自回归移动平均模型ARMA(p,q)、自回归综合移动平均模型ARIMA(p,d,q)等几类。
2.4.7 神经网络法[28]
人口增长具有非线性动力学特性,BP神经网络有很强的自学习、自适应能力,可以克服某些人口预测方法中的人为随机因素。它通过对连续或断续的输入作为状态响应而进行信息处理,采用逼近的方式来解决问题。
神经网络是一种由多个神经元以某种规则连接而形成的层次网络结构,通过向环境学习获取知识并改进自身性能,即通过对输入样本的学习训练建立输入与输出之间的非线性映射关系。利用神经网络预测就是把已知的一个序列作为输入值,把要预测的值作为输出值,对该序列进行学习训练,构造网络建立非线性映射来逼近该序列的实际变化规律,对输出结果进行预测。
a1Λan为观测到的人口时序数,作为输入层,输出层c1为要预测的数据,建kkk
立输入节点,输出节点数分别为n、1的3层BP神经网络模型(图6)。选取一组输入输出数据作为训练样本输入网络,经过正向传播输出和反向传播修正权值完成网络学习的过程。然后进一步输入下一组人口时序数据得到预测值。
– 15 –
W
V1hn
图6 三层BP神经网络的拓扑结构
Fig.6 The topology structure of Three layer BP Neural Network
自回归、指数函数、幂函数都要求人口数据具有明显的规律性,只有对于特定地区的人口状况才适用。多元回归模型涉及较多影响因素,而如何对这些因素进行定量是研究的难点。灰色系统、时间序列和神经网络法适用于不同类型的人口数据,但后两种方法需要大量的历史数据,相对操作也比较复杂。因此本文的预测主要采用灰色系统GM(1,1)模型。
– 16
–
第三章 生育率模型
3.1 生育率指标说明
生育率反映了育龄妇女的生育能力和生育水平,按参照标准的不同,对生育率的定义也不同。人口学上用来衡量生育率的指标主要有年龄别/组生育率,世代生育率和总和生育率。
年龄别/组生育率指某个年龄(或年龄组)的育龄妇女在某一年的平均生育率,可以通过人口统计资料直接获得,能够反映生育率的年龄分布趋势。
世代生育率(Completed Cohort Fertility Rate)以每一世代各年龄层的方式,记录一个妇女一生中生育的子女总数,反映各世代实际的生育率变化,是生育率的队列指标[7]。
总和生育率(Total Fertility Rate)假设妇女按照某一年的年龄别生育率度过育龄期,平均每个妇女在育龄期生育的孩子数被称为总和生育率。实际上,它就是假设一个妇女在整个育龄期都按照某一年的年龄别生育率生育的情况下,一生所生育孩子的总数,是生育率的时期指标。
– 17 –
图7 世代生育率(CFR)与总和生育率(TFR)的比较[8]
Fig. 7 Comparison of CFR and TFR
要统计世代生育率必须对一代人的整个生育年龄区间的生育行为进行跟踪,因此总和生育率使用更为普遍。总和生育率和世代生育率的主要区别在于参照的时间体系不同,总和生育率可以视为对世代生育率的一种近似。但实质上,两者的内涵有显著差异(图7)。生育率的分析方法也可相应地分为两大类,即队列分析法(以世代生育率CFR为指标)和时期分析法(以总和生育率TFR为指标)。从理论上来说,队列分析法更能反映妇女一生的生育水平,但总和生育率更容易获得。因此,时期分析法使用更广泛。在本课题研究中,以总和生育率来表征生育水平的大小。
3.2 生育率模型
生育率模型可以分为两大类[9]。第一类为演绎模型,即从某些理论假设出发来推导出的模型。例如,1974年A. J. Coale 和T. J. Trussell提出用模型生育率表来研究妇女生育规律[10,11]。1978年,法国人口学家John Bongaarts根据生育率和生育率
– 18
–
直接决定因素(如结婚、避孕、人工流产和产后不孕概率等)之间的关系建立了综合生育率模型[12-16]。第二类模型为归纳模型,其特点是通过对大量统计数据的分析,找出共同点来。此类模型往往有明确的数学形式,便于计算和仿真,也是本文研究的重点,以下是几个使用较广的归纳模型。
3.2.1 Compertz模型[17-20]
Compertz函数早先用于人口死亡率的研究,随后被推广到了生育率的研究上。Wunsch(1966)和Martin(1967)评估了将Compertz模型运用在生育率研究上的可行性。Compertz模型的数学形式如下:
F(x)=FABx ·····························································(3.1)
F(x)=∑f(i) ·····························································(3.2)
i=r1x
其中,x:年龄;F(x):累计生育率;F:总和生育率;f(i):年龄为i的妇女的生育率;A、B:描述生育率趋势的参数。
3.2.2 Gamma模型[20-22]
1988年Bell利用多变量1981年Hoem采用Gamma函数配适分年龄别生育率。
宋健亦将Gamma函数时间序列模型估计Gamma函数的参数以预测年龄别生育率。
应用于中国的生育率数据,得到较好的拟合效果。Gamma函数数学形式如下:
βαα−1−βxf(x)=xe=Kxα−1e−βx
Γ(α)···································(3.3)
其中,α-1表示函数转折高度系数;β为函数转折收敛系数,代表函数尾端的收敛速度。
3.2.3 Lognormal模型[23]
– 19 –
生育率的年龄分布曲线与近似正态分布类似[24]。因此,可以在概率分布函数的基础上构造生育率模型。Lognormal(对数正态分布模型)最早由黄荣清提出[25,26],其数学表述为:
[ln(x−x0)−µ]2
f(x)=k1××exp{−22σσπ·················(3.4) 1
式中,x0为起始生育年龄,本文令x0=14岁;kl为对数正态分布函数所对应的尺度变换因子,与生育水平相关。由模型计算得到的期望生育年龄为:
exp(µ+σ2
2)+x0
参数µ和σ决定了分年龄别生育率曲线的形状:在µ相同的条件下,σ越小,到达期望生育年龄的时间就越短;在σ相同的条件下,µ越小,期望生育年龄周围生育率越高。
3.2.4 Poisson分布模型
本文提出了另一种基于随机分布函数的生育率模型,该模型用泊松分布函数来描述分年龄别生育率。模型的数学表述为:
f(x)=kp×
该模型的期望生育年龄为: λ(x−x)e−λ0(x−x0)!·················································(3.5)
λ+x0
式中,起始生育年龄x0也取14岁;kp是泊松分布函数所对应的尺度变换因子;λ表征了从起始生育年龄x0至平均生育年龄的时间长度。若λi为第i孩生育率模型的参数,则λi+1−λi可以表征生育第i孩至生育第i+1孩的平均间隔时间的大小。
3.2.5 生育率组合模型
– 20 –
由于上述模型都是基于某一特定函数而建立的,适用范围小,定量地看,尚无法满足不同生育率数据对模型的精度要求。为了改进模型精度,扩大模型的适用范围,本文构造了分年龄别生育率组合模型(composite fertility rate model):
[ln(x−x0)−µ]2λ(x−x0)e−λ
exp{−+(1−α)····························(3.6) f(x)=kc×{α2()!x−x2σσ2π01
除了上述五个模型以外,国内外一些学者还研究了双指数曲线、多项式等数学函数对生育率的拟合效果[27]。研究发现,在一般情况下,某一地区的生育率年龄分布模式是不会随时间变迁而发生明显改变的,因此可以使用一些简单的函数(包含较少的参数,一般为4-5个)来模拟生育率的年龄分布。另一方面,模型的精度主要取决于实际生育率统计数据与所用模型函数的曲线形状的接近程度。用不同模型拟合不同地区的生育率数据,往往会得到不同的效果。研究表明,由于中国当前的生育率模式与以往的生育模式有较大不同,Compertz模型和Gamma模型对年龄别生育率的拟合精度不如Lognormal模型[23]。因此,本文将重点比较Lognormal模型、Poisson分布模型和生育率组合模型对中国及上海市分年龄别生育率的拟合情况以及这三个模型在生育率预测应用上的复杂度。
3.3 模型验证和比较
3.3.1 Lognormal模型与Poisson模型验证
运用分孩次的年龄别生育率统计资料[31,32]对上述模型进行验证,参数辨识使用最小二乘法,优化目标函数为:
min∑(yx−fx)2
x=1549
验证结果如表1所示,表中即要求实际生育率yx与模型输出fx的误差平方和最小。
– 21 –
RMSE为均方根误差。
表1 Lognormal和Poisson分布模型描述分孩次的年龄别生育率
Table 1 Comparison of Poisson model and Lognormal model for age-specific fertility rates 年份 孩次kl kp 期望生育年龄/岁 RMSE
LognormalPoissonLognormal Poisson
1.11423.44 23.20 0.0049 0.0106 1990 1 1.024
2 0.716 0.69926.78 26.16 0.0030 0.0044
3 0.284 0.28229.22 28.67 0.0018 0.0024
1994 1 0.927 1.03824.16 24.00 0.0038 0.0113
2 0.443 0.43027.57 26.94 0.0029 0.0029
3 0.114 0.10729.27 28.52 0.0013 0.0013
2000 1 0.860 0.91524.07 23.76 0.0022 0.0059
2 0.289 0.27828.96 28.30 0.0019 0.0011
3 0.065 0.05730.55 29.33 0.0001 0.0004
RMSE指标反映了优化目标函数值的大小,本文将其作为衡量模型精度的指标。图8所示为不同模型对2000年一孩、二孩、三孩生育率统计数据的拟合结果。就中国历年生育数据而言,在描述分孩次的年龄别生育率时,对数正态分布模型的精度一般高于泊松分布模型(也有例外,见图8(b))。
– 22 –
(a)
一孩
– 23
–
(b) 二孩
(c) 三孩
图8 2000年分孩次的年龄别生育率模型拟合结果与统计数据比较
Fig. 8 Comparison of the model with statistic data for age-specific fertility
由图8可知,对数正态分布模型和泊松分布模型反映的生育率变化趋势是一致的。在1990年至2000年间,生育水平呈下降趋势,二孩和三孩生育率下降幅度更为明显。就期望生育年龄来看,妇女生育一孩的平均年龄介于23、24岁间,随年份的变化不大。生育二孩和三孩的平均年龄随着年份的增加有明显的上升趋势。这种变化趋势完全符合我国的实际情况,说明运用对数正态分布模型和泊松分布模型来描述分年龄别生育率分布是可行的。
3.3.2 组合模型参数辨识
– 24 –
组合模型使用非线性最小二乘法辨识参数。非线性最小二乘法是否收敛,很大程度上依赖于待定参数起始值设置的质量。参数搜索的起始值越接近真值,计算结果精度越高,收敛越快。对于复杂的非线性模型,使用最小二乘法时往往会有多个局部极小点,设定的初值不同,可能会收敛到不同的局部极小点。因此,对于组合模型而言,待定参数初始值的选取是非常重要的。由于生育率组合模型是描述妇女分年龄别生育率分布的模型,各个参数都有明确的物理意义,在设定初值时必须予以充分考虑。
参数µ、σ、λ的初值可由妇女期望生育年龄推算。分析80年代以来的妇女生育统计数据,期望生育年龄一般为23至26岁(由妇女生育峰值年龄近似得到)。而对于Lognormal模型和Poisson分布模型,期望生育年龄分别为exp(µ+σ2/2)+14以及λ+14。因此,λ初值可取9~12。由于σ的范围一般为0~1,则µ初值可取1.7~2.5。
尺度变换因子kc是一个与生育水平高低密切相关的参数,而总和生育率是衡量生育水平最常用的指标,因此可以用总和生育率作为kc的初值。
通过调节α值,能使组合生育率模型更贴近分年龄别生育率分布的实际情况。由于对数正态分布模型在描述一般生育率时,精度要比泊松分布模型高(见图8),故将α的取值范围设定为0.5~2。α>1时,加权和变为加权差的形式。
综上所述,可将组合模型的初值设定为kc=总和生育率,µ=2.4,σ=0.5,λ=11,
即可得到模型参数的估计值。经反复验证后发现,选择不同的k值通过调节权值α,
和α值对算法的收敛影响最大,k的初值为总和生育率时,有很好的收敛性。对α初值的选择则直接影响到计算精度。
表2 组合模型参数的估计值(最小二乘法)
Table 2 Estimate parameter values of composite model by using least square methods
– 25 –
年份 α kc µ σ λ
1986年 1.21502.39882.41090.374912.5750
1989年 1.24932.24292.40220.384512.5310
1990年 1.40402.19972.42020.353411.7395
1994年 1.66671.54182.44970.314512.6358
1995年 1.37121.41862.35060.343112.0798
1997年 1.60931.45322.44060.307112.2750
1998年 1.54741.44942.43720.307812.0436
2000年 1.27821.21542.38660.338211.8319
2003年 1.32961.41352.40600.343311.4467
3.3.3 模型精度比较
– 26 –
图9 组合模型、对数正态分布模型及泊松分布模型精度比较(均方根误差)
Fig. 9 Comparison of accuracy of the three models
相比对数正态分布模型和泊松分布模型,组合模型的均方根误差更小,精度得到明显提高(图9)。另外,利用分年龄别生育率计算出生人数及出生率时,要分别乘以各年龄别平均育龄妇女人数或各年龄别育龄妇女人数占育龄妇女总人数的比重,因此生育高峰年龄段内(22-32岁)生育率的准确性显得尤为重要。而组合模
,型在生育高峰年龄段内的分年龄别生育率误差在三个模型中一般是最小的(图10)
进一步显示了组合模型的优点。
– 27
–
图10 不同模型分年龄别生育率误差比较(2003年抽样数据[31])
Fig. 10 Comparison of age-specific fertility rates error of the three models for 2003
Lognormal模型和Poisson分布模型数学形式简单,物理意义明确。Poisson分布模型参数最少,易于辨识参数,大大减少了参数预测的工作量,只需预测两组参数。组合模型精度最高,考虑到实际生育率不一定满足特定分布,该模型适用范围最广,但参数个数较多。Lognormal模型参数个数适中,拟合精度较高。这三个模型可以根据其优缺点及对实际数据的拟合情况选择最合适的模型进行应用。
3.4 生育率预测
每一年的分年龄别生育率均有35组数据,即使将其压缩成以每五岁年龄为间隔的年龄组生育率,也有7组数据。如果以不同年龄别或年龄组的生育率为预测单位,
– 28
–
预测的工作量会很大。1987年Bozik和Bell最早提出将主成分分析法应用于生育率
[33-36],其基本思想是将所有的分年龄别生育率视为多个变量,透过主成分分析缩减维度简化计算。由于各主成分间相互独立,可使用回归分析或时间序列等方法对每一主成分进行预测,将多变量预测问题转化为若干个单变量的预测。基于此原理,可以利用合适的生育率模型拟合历史统计数据,以辨识得到的各个参数作为观测序列,即要预测的主成分。分别对这些参数进行预测。然后,只需将各参数的预测值代入生育率模型,即可得到分年龄别生育率的预测值。
无论是Lognormal模型、Poisson分布模型或组合模型都是基于随机分布函数的生育率模型,具有类似的数学形式,可以概括为:
f(x)=k×h(x) ·····························································(3.7)
其中,x指妇女生育年龄;f(x)为生育率;h(x)是特定的生育模式近似函数;k为尺度变换因子,与生育水平高低有关。
假设妇女的生育意愿和期望生育年龄在20年内不发生显著变化,则可认为生育模式在这段时间内保持恒定,只需要对k值进行预测即可。
3.4.1 总和生育率预测
如果将分年龄别生育率f(x)作归一化处理,式3.7可以近似为
)f(x)=TFR×h(x)························································ (3.8)
即分年龄别生育率为总和生育率TFR和归一化后的生育模式的乘积。基于之前的假设,只需将原始生育率先做归一化处理,则对年龄别生育率的预测就可以简化为对总和生育率的预测。由于总和生育率的历史数据比分年龄别生育率的历史数据完备得多,在缺乏统计数据的情况下,用这种方法可以方便地得到分年龄别生育率
– 29 –
的预测值。
以总和生育率TFR为观测序列,应用灰色模型GM(1,1)进行预测。
(1) 建立GM(1,1)模型
原始数列X(k)={x(1),x(2),Λ,x(n)}一次累加生成向量Y(k),以弱化数列的随机性,强化其规律性。
Y(k)=∑x(i)
i=1kk=1,2,Λ,n································· (3.9)
GM(1,1)模型的一般形式为:
dY(t)+aY(t)=u······················································· (3.10) dt
其解为:
Y(k)=[X(1)−u/a]e−a(k−1)+u/a······························· (3.11)
其中a、u为需要辨识的参数。
(2) 参数辨识
令 ap= u
11 Μ
11(Y(1)+Y(2))−21−(Y(2)+Y(3))B=2Ο−1(Y(n−1)+Y(n))2
XN=[x(2)x(3)Λ′x(n)]
p=(B'B)B'XN
−1a=············································· (3.12) u
– 30 –
ˆ(k+1) 将辨识得到的参数a、u代入式3.11,得到Y(k+1)的估计值Y
ˆ(k+1)为 则待预测值X(k+1)的估计值X
ˆ(k+1)=Yˆ(k+1)−Yˆ(k)··········································· (3.13) X
(3) 预测实例
以1994年至2004年的中国总和生育率作为观测数列进行预测。
表3 总和生育率GM(1,1)模型预测结果
Table 3 Forecasted values of TFR by GM(1,1)
年份 1994 1995 1996 [***********]012002 2003 2004原始值 1.56 1.43
估计值 1.56 1.481.55 1.461.47 1.461.461.451.451.441.401.431.391.431.39 1.41 1.451.42 1.41 1.40
年份 2005 2006 2007 [***********]122013 2014 2015预测值 1.39 1.381.38 1.371.361.351.341.341.33 1.32 1.31
3.4.2 分年龄别生育率预测
根据前文的假设,以2003年的生育模式为基本生育模式,分别预测2004年及2015年分年龄别生育率。结合表2和表3的各项参数估计值,计算所得的2004年分年龄别生育率及2015年分年龄别生育率如图11、12。
– 31 –
图11不同模型对2004年分年龄别生育率的预测估计
Fig. 11 Forecasted values of 2004 age-specific fertilitis by different models
图12 组合模型对2015年全国分年龄别生育率的预测
Fig. 12 Forecasted values of 2015 age-specific fertilities by composite model
–
32
–
第四章 死亡率模型
4.1 人口死亡风险主要度量指标
人口学上反映死亡风险的指标主要有死亡力、死亡率和死亡概率。这三个指标都表征了个体死亡的可能性,但含义各不相同。
死亡力µ(x)(Force of mortality):又称瞬间死亡率,指某一确切年龄的死亡概率水平。
分年龄死亡率M(x,x+n)(age specific mortality):某年度从x岁至x+n岁之间的死亡人数,可以直接由统计数据获得。
分年龄死亡概率(age specific probability of mortality):已活到x岁的人有多大比例将在到达x+n岁之前死亡。
死亡力µ(x)数据难以得到,实际应用中一般使用平均死亡力(x)或累计死亡力。µ(x),M(x,x+n)和q(x,x+n)虽然都是描述死亡率的指标,但三者的物理意义有明显区别。若假定活到x岁的存活人数随年龄x的增加呈指数递减,则有以下关系:
q(x,x+n)=1−e−nM(x,x+n)············································· (4.1)
(x)=M(x,x+n)························································ (4.2) µ(x)=limq(x) ························································· (4.3)
∆x−>0
– 33 –
4.2 数据修匀
所谓数据修匀,即根据一个连续变量的不规则观察序列,通过修匀的方法得到一个光滑的有规则的修正序列,使其与观察值序列相和谐。当要修匀的数据范围比较大,用单个函数形式不能得到满意的修匀时,可以将数据分段。在不同的子范围上,用不同的函数拟合它,这种修匀方式通常称为样条修匀。1980年Benjamin和
Pollard将样条函数引入修匀理论中,首次用自然三次样条解决了人口死亡率的修匀问题[37]。在很多情况下,死亡率的统计数据以分年龄组的数据形式存在,数据修匀可以把这些被压缩的数据恢复成分年龄别数据。并且,数据修匀可以调整和修改异常值,以保持死亡率曲线的光滑性和必要的连续性。
表4 2003年中国分年龄组死亡率统计数据 Table 4 Chinese mortality statistics for 2003
年龄 男 女
0-4 5-9 10-1415-1920-2425-2930-3435-3940-4445-4950-5455-5960-6465-69
3.70.60.361.021.171.131.42.142.883.726.319.8715.8623.61
4.120.490.520.430.930.810.871.21.682.623.325.758.3418.42
– 34 –
70-7475-7980-8485-8990+
44.1873.52115.1
30.5149.2692.93
174.9117.44290.78289.57
以每一年龄组所对应的死亡率数据作为三次样条插值的连接点,用Matlab的插值函数interp1可以方便地将分年龄组数据还原为分年龄别数据。以2003年中国人口死亡率数据为例,插值结果见图13、14。
图13 2003年中国人口死亡率三次样条插值结果与实际数据比较(男) Fig. 13 Comparison of the interpolate values and real mortality for 2003 (male)
– 35 –
图14 2003年中国人口死亡率三次样条插值结果与实际数据比较(女) Fig. 14 Comparison of the interpolate values and real mortality for 2003 (female)
由于连接点处的数据使用分年龄组数据,即该年龄组平均死亡率,而非连接点本身所对应的实际死亡率数据,因此在低龄段尤其是高龄段有一定的误差,而在
5~80岁期间,通过插值得到的数据与实际数据非常接近。
4.3 死亡率模型
4.3.1 死亡率模型综述
人口死亡模型主要分为两大类,即间接度量模型和直接度量模型。60年代,英国人口学者W. Brass提出了logit模型生命表。该方法认为不同生命表上的存活概率经过logit变换后存在一种近似的线性关系,可以利用一个已知人口的生命过程来度
– 36
–
量另一个人口生命过程。这种模型形式简单,只有两个参数。70年代末80年代初,在logit体系基础上又发展为Basia和Ewbank的4个参数模型[38,39]。Brass 的logit体系作为人口死亡分析的方法,被中国人口学者广泛使用在人口分析上。我国学者黄荣清经研究发现,在一定条件下,同样是2个参数的l(x)的双对数模型的稳定性要比logit体系更好一些[40]。
死亡的直接度量模型就是以年龄为自变量、死亡风险(通常为死亡力或死亡概
率)为因变量的函数模型。其中以Gompertz(1825)的研究影响最为深远。1860年麦可海姆(Makeham)对该法则进行了补充。在此基础上,人口学家提出了各种不同的死亡模型。
在以下各模型中,x为年龄,µ(x)为死亡力函数
(1) Compertz模型:
µ(x)=αeβx
(2) Makeham模型
························································· (4.4)
µ(x)=αeβx+γ ························································· (4.5)
(3) Weibull模型:
µ(x)=αxβ
此模型不考虑0岁婴儿死亡率。
··························································· (4.6)
(4) Kannisto模型:
αeβxµ(x)= ··················································· (4.7) βx
1+α(e−1)
观察死亡率曲线可以发现,死亡率的年龄分布通常为U型(死亡水平较高时)
– 37 –
或J型(死亡水平较低,如图14)。在儿童少年期死亡率随年龄的上升而下降,在老年期死亡率随年龄的上升而上升,而青壮年期的死亡率变化则比较平稳。经研究发现,以中国的死亡率数据为例,在儿童少年期,Weibull模型的精度要高于Compertz模型[41],在高龄期,Kannisto模型的拟合效果好于其余模型[42]。Compertz模型低估低龄段死亡率,高估高龄段死亡率。Makeham模型改进了对低龄段死亡率估计的准确性[43]。因此,用上述模型对全年龄区间的死亡率进行描述并不合适,针对这一问题,一些学者提出了全年龄区间的死亡率模型[44]。
根据人从出生开始到生命结束的死亡风险,按不同年龄阶段,一般概括为三种不同形式的作用力。在死亡率模型中,从Thiele(1872)到Rogers & Plank(1983)的模型都把死亡力设计成三种不同函数之和:即一个递减函数(儿童少年期)、一个递增函数(老年期)和一个先增后减的函数(青壮年期)。
(5) T.N. Thile模型:
µ(x)=A1e−Bx+A2e−0.5B(x−C)+A3eBx························· (4.8)
1
2
3
2
(6) Heligman & Pollard模型
q(x)=e
其中,q(x)为死亡概率
A(x+B)c
+De
−E(lnx−lnF)2
GHx
+····················· (4.9) 1+GHx
(7) Roger & Plank模型
q(x)=A+Be−Cx+De−F(x−E)−e−G(x−E)+HeLx·························· (4.10)
从本质上说,死亡间接度量和直接度量两类模型之间并没有根本区别。所谓直接和间接不过是在度量这个过程时的比较参照系不同而已。我国学者就这两种模型
– 38 –
的内在联系进行了研究[45]。 4.3.2 分段死亡率模型
以1989年、1994年、1998年、2001年的中国死亡率人口统计数据为原始数据,通过最小二乘法或非线性最小二乘法分别对Compertz模型、Makeham模型、Weibull模型以及Kannisto模型进行验证,并计算各年龄区间的均方根误差,结果列于表5-表8。
表5 1989年中国人口死亡率各模型拟合均方根误差比较 Table 5 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00580.00220.0412
Weibull模型
0.0013 0.0043 0.0823
Kannisto模型
0.00595.41E-040.0058
0.00580.00110.0056
表6 1994年中国人口死亡率各模型拟合均方根误差比较 Table 6 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.010.00230.0448
Weibull模型
0.0015 0.0042 0.0854
Kannisto模型
0.01019.40E-040.0083
0.010.00160.0088
表7 1998年中国人口死亡率各模型拟合均方根误差比较 Table 7 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00850.00240.0443
0.00840.00140.0104
Weibull模型
0.0012 0.004 0.0785
Kannisto模型
0.00868.74E-040.0105
– 39 –
表8 2001年中国人口死亡率各模型拟合均方根误差比较 Table 8 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00530.0020.0385
0.00510.00110.0096
Weibull模型
8.92E-04 0.0034 0.0731
Kannisto模型
0.00538.01E-04
0.01
比较表5-表8的数据,在儿童少年期,Weibull模型拟合效果最好。在青壮年期,
Kannisto模型的拟合效果最好。在老龄段,Makeham模型和Kannisto模型的拟合精度接近,但Makeham模型有3个参数,而Kannisto模型只有两个参数。
全年龄区间模型比上述单一函数更能有效地描述死亡率曲线特征。但是无论是
T.N. Thile模型、Heligman & Pollard模型还是Roger & Plank模型,其参数个数至少为6个。且模型本身都是非线性函数,参数的辨识比较困难。因此,本文构造一个新的可用于描述全年龄区间的死亡率模型,即死亡率分段模型。
考虑到死亡率在儿童少年期、青壮年期、老年期各有不同的特征,因此在每个区间分别使用不同的模型进行拟合。基于前文的分析,在儿童少年段使用Weibull模型,而在青壮年及老年期使用Kannisto模型。分段死亡率模型的数学形式为:
αxβ0
································ (4.11) µ(x)=
αeβx
x>14βx
α+−1(1)e
以2001年中国死亡率人口为原始数据验证分段死亡率模型,拟合结果见图15。死亡率分段模型在少年儿童期的均方根误差为3.66E-4,青壮年期的误差为8E-4,老年期的均方根误差为0.01,对比表8的数据,模型精度得到了提高。
– 40 –
图15 2001年中国人口死亡率分段模型拟合结果与实际数据比较 Fig.15 Comparison of mortality segmented model values with real data
4.4 死亡率预测
死亡率预测可以采用与生育率类似的方法,即主成分分析法,通过历史统计数据辨识死亡率分段模型的参数,可以得到四组参数序列。然后应用灰色模型等预测方法对这四组参数进行预测,得到的参数预测值再代入死亡率分段模型,即可得到要预测的分年龄别死亡率。在历史统计数据缺失的情况下,这种方法就显示出其局
限性。本文从影响死亡率的因素入手,通过人均国民生产总值GNP来预测死亡率。4.4.1 影响死亡率的因素
人口死亡是由多种因素决定的。死亡率主要和社会经济水平、生活气候环境、
– 41
–
上海交通大学
硕士学位论文
人口年龄结构模型建模和预测
姓名:虞丽萍
申请学位级别:硕士
专业:控制理论与控制工程
指导教师:袁景淇
20070101
人口年龄结构模型建模和预测
摘 要
人口是一个动态系统。人口变化对未来经济、社会的发展有着直接的影响。人口年龄结构是人口研究的重要指标之一,人口年龄结构发展趋势的预报对人口政策的制定有着非常重要的作用。本文以离散形式的人口发展方程为主模型。在此基础上,分别建立了生育率、死亡率和迁移模型,以预测人口生育率、死亡率、流动人口和人口年龄结构的变化趋势。与传统模型相比,本文所提出的基于随机分布函数的生育率组合模型和死亡率分段模型使模型精度得到了进一步的提高。
本文以中国历年统计数据为原始数据,验证了主模型和各子模型的有效性,并预测了2015年上海市人口年龄结构,绘制了人口年龄树。人口年龄树树形反映了人口结构的健康状态。通过分析人口年龄树的变化趋势,可以了解人口结构所存在的问题,为政府调控人口提供科学依据。
关键词:离散人口发展方程,生育率,死亡率,流动人口,人口预测,人口年龄树
MODELING AND FORECASTING THE
AGE STRUCTURE OF POPULATION
ABSTRACT
The population system is a dynamical system. The trend of a population will affect the development of the society and its economy. The age structure is one of the most important indexes in population research. The forecast of age structure plays an important role in making population policies. A discrete model of population development was applied in this paper. Fertility model, mortality model and immigration model were also established to forecast the fertility, mortality, immigration population and the age structure. Compared with traditional functions, both the composite fertility model which is based on random distribution functions and the segmented mortality model improved the models’ accuracy.
Historical Chinese population statistics were used to prove the validity of the models referred in this paper. The age structure of Shanghai in 2015 was forecasted and displayed in a tree-like graph. The shape of the population tree reflects the health condition of its age structure. By analyzing the development trend of the age structure, we can find population
problems and provide scientific evidence for government to control the population.
KEY WORDS: Discrete Population Development Equations, Fertility, Mortality, Immigration, Population Forecast, Age Structure Population Tree
图片目录
图1 人口金字塔·······································································································5 图2 人口年龄树·······································································································6 图3 人口结构的三种类型······················································································8 图4 人口状态方程控制框图················································································11 图5 人口发展方程的数据流图··············································································12 图6 三层BP神经网络的拓扑结构·······································································16 图7 世代生育率(CFR)与总和生育率(TFR)的比较············································18 图8 2000年分孩次的年龄别生育率模型拟合结果与统计数据比较···················24 图9 组合模型、对数正态分布模型及泊松分布模型精度比较···························27 图10 不同模型分年龄别生育率误差比较····························································28 图11不同模型对2004年分年龄别生育率的预测估计········································32 图12 组合模型对2015年全国分年龄别生育率的预测·······································32 图13 2003年中国人口死亡率三次样条插值结果与实际数据比较(男)·········35 图14 2003年中国人口死亡率三次样条插值结果与实际数据比较(女)·········36 图15 2001年中国人口死亡率分段模型拟合结果与实际数据比较··················41 图16 影响人口死亡率的因素················································································42 图17 参数a估计值································································································44 图18 参数b估计值·······························································································44 图19 参数c估计值································································································45 图20 2004年中国男性分年龄别死亡率预测值与实际值比较··························46 图21 2004年中国男性分年龄别死亡率预测值与实际值比较··························47 图22 2000年上海市外来人口按年龄别分布图·················································55 图23 2004年中国人口年龄树·············································································58 图24 2004年中国人口年龄结构预测值与实际值相对误差······························58 图25 上海市历年总和生育率··············································································64 图26 2015年上海市人口年龄树·········································································65
表格目录
表1 Lognormal和Poisson分布模型描述分孩次的年龄别生育率·······················22 表2 组合模型参数的估计值(最小二乘法)······················································25 表3 总和生育率GM(1,1)模型预测结果··························································31 表4 2003年中国分年龄组死亡率统计数据··························································34 表5 1989年中国人口死亡率各模型拟合均方根误差比较···································39 表6 1994年中国人口死亡率各模型拟合均方根误差比较···································39 表7 1998年中国人口死亡率各模型拟合均方根误差比较···································39 表8 2001年中国人口死亡率各模型拟合均方根误差比较···································40 表9 中国历年人均国民生产总值GNP·································································43 表10 上海市第五次人口普查外来人口年龄分布················································53 表11 上海市主要年份人口迁移数据····································································55 表12 上海市人口迁移数据预测············································································56 表13 2004年中国人口年龄结构············································································59 表14 人口年龄结构类型(国际通用标准)······················································59 表15 上海市总和生育率预测················································································64 表16 上海市2015年人口年龄树相关数据··························································65
符号说明
p(r,t)
µ
ϕ
N
β
h
g
kl
kp
kc
f
q
k,r,t ,r1 ,r2
a,b,u,A,B
α,β,µ,σ,c 人口年龄分布密度函数 死亡力(‰) 出生婴儿总数(人) 人口总数(人) 妇女平均生育率,即总和生育率(人)妇女生育模式(‰) 迁移人口数(人) Lognormal模型尺度变换因子 Poisson分布模型尺度变换因子 生育率组合模型尺度变换因子 生育率 死亡概率 模型参数
上海交通大学
学位论文版权使用授权书
本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。
保密□,在年解密后适用本授权书。 本学位论文属于
不保密√。
(请在以上方框内打“√”)
学位论文作者签名: 虞丽萍 指导教师签名:袁景淇
日期:2007 年 2 月 26日 日期:2007 年 2 月 26日
– 82 –
上海交通大学
学位论文原创性声明
本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。
学位论文作者签名:虞丽萍
日期:2007 年 2 月 26 日
– 83 –
第一章 引言
1.1 研究背景
人口数量、质量和年龄分布直接影响一个地区的经济发展、资源分配、社会保障、社会稳定和城市活力。对此,单纯的人口数量控制(如已实施多年的计划生育)不能体现人口规划的科学性。政府决策部门需要更详细、更系统的人口分析技术,为人口发展策略的制定提供指导和依据。
长期以来,对人口年龄结构的研究仅限于粗线条的定性分析,只能预测年龄结构分布的大致范围,无法用于分析年龄结构的具体形态。随着对人口规划精准度要求的提高,通过数学方法来定量计算各种人口指数的方法日益受到重视,这就是人口控制与人口预测。
人口控制和人口预测是人口研究中的重要课题。准确的人口预测为制定合理的社会经济发展规划提供了科学依据。例如,要制定生育计划,就必须知道未来妇女的生育率;要制定社会保障体系,就必须知道未来老年人口动态变化量;要规划学校建设,就必须知道学龄人口数;要改善医疗保障,就必须对未来人口的死亡状况有清楚的认识;要确定人才引进策略和户籍管理制度,就必须了解迁移人口年龄分布及受教育情况。这些都离不开人口预测。政府可以根据这些未来人口信息状况,结合社会经济发展,在制定国民经济发展决策时,通过调控人口的方法对未来社会经济发展中的产业结构进行相应的调整,使劳动力资源得到充分地开发和利用,社
– 1 –
会资源得到合理分配,并采取措施提前应对由老龄化,低生育率等人口因素而可能产生的社会经济问题,从而使社会经济协调发展。
1.2 研究内容
结合人口发展的特点,人们建立了不同的人口模型,并利用统计数据加以验证和预测。各级政府部门和研究机构也建立了人口信息系统,用以提供制定人口政策和发展规划的参考。考虑到人口发展问题的复杂性和区域的差异性很大,本文以区域人口年龄结构为研究对象,以中国和上海市为预测实例,以历年人口统计数据为验证基础,建立人口循环增殖预测模型。在该模型的基础上,进一步建立出生率、死亡率、人口迁移等子模型,对未来人口结构发展趋势进行预报。模型结果用人口年龄树树形图来展示。通过观察人口年龄树树形的变化,获得对人口年龄结构的变迁轨迹和人口年龄树健康状况的直观判断,为制定人口调控政策提供科学的参考。
本文采用灰色系统模型等预测方法对生育率、死亡率、流动人口的变化趋势进行预测。预测所得的结果代入生育率、死亡率和迁移模型,可以计算出分年龄别的人口预测数据。上述预测数据作为人口发展方程的输入量,经过循环迭代,就能得到未来的分年龄性别的人口数。在此基础上,进一步计算可得各类人口指数。结合上述数据,本文对我国和上海市的当前人口状况和未来人口状况进行了详细的分析、比较,为政府人口政策的制定和实施提供宏观上的方向把握和微观上的数据的支持。
– 2 –
第二章 人口年龄结构主模型
2.1 人口概念辨析
本文所涉及的主要概念和定义有:
(1)人口:生活在一定社会生产方式、一定时间、一定地域,实现其生命活动并构成社会生活主体,具有一定数量和质量的人所组成的社会群体。
(2)出生率:指某年每1000人对应的活产数,又称总出生率或粗出生率。它反映人口的出生水平,一般以千分数表示。
(3)生育率:某年每1000名15-49岁妇女的活产婴儿数。又称一般生育率。该指标比出生率要精确一些,因为它将生育同可能生育的特定性别年龄的人口联系起来(通常是15-49岁的妇女),排除了年龄性别结构不同引起的偏差。生育率比出生率更能揭示生育水平的变化。
(4)总和生育率(TFR):指假设妇女按照某一年的年龄别生育率度过育龄期,平均每个妇女在育龄期生育的孩子数
(5)死亡率:一定时期内(通常为一年)死亡人数与同期平均人数(或期中人数)之比。说明该时期人口的死亡强度,通常用千分比表示。
(6)人口迁移:人口在地理上的位置变更。人口为了某种目的或动机,离开原来的居住地,时间或长或矩,距离或远或近,或者返回或者终生不再返回而定居于某地,
– 3 –
均称为人口迁移。
(7)人口增长率:人口增长程度或增长速度,即一定时期内人口增长数与人口总数之比。通常以一年为期计算,用百分数表示。
(8)人口性别比:指某一人口中男性对女性的比例,通常以每100个女性对应的男性数来表示。
(9)儿童妇女比:指某年每1000名妇女(15-49)对应5岁以下孩子的数目。这个指标可以从人口普查或抽样调查中得到,因此它可在出生统计不详细的情况下提供生育水平的数据。
(10)生育更替水平:生育更替水平是指这样一个生育水平,即同一批妇女生育女儿的数量恰好能替代她们本身。当净人口再生产率为1.00,总和生育率为2.1时,恰好等于更替水平。一旦达到生育更替水平,出生和死亡将逐渐趋于均衡,在没有国际迁入与迁出的情况下,人口将最终停止增长,保持稳定状态。
(11)人口年龄结构:某一年某一地区按年龄的人口总数。
(12)人口金字塔: 是形象地表示某一人口的年龄和性别构成的图形。水平条代表每一年龄组男性和女性的数字或比例(男左女右)。金字塔中各个年龄性别组相加构成了总人口。人口金字塔可以用1岁年龄组的数据绘制,如图1。
– 4 –
图1 人口金字塔(数据来源:1990年上海市人口年龄结构。男左女右)
Fig. 1 Population pyramid
(13)人口年龄树:是本文所提出的一种用来表述人口年龄结构的图形,与人口金字塔类似。图形外沿用光滑连续曲线代替人口金字塔的水平条型图,因其形状类似于树,将此类图形命名为人口年龄树,如图2。
– 5
–
图2 人口年龄树(数据来源:1990年上海市人口年龄结构。男左女右)
Fig.2 Age structure tree of population
2.2 人口结构分类
人口结构是反映人口年龄性别分布的重要指标,对人口变化和社会发展具有不容忽视的影响作用。人口结构是人口再生产的基础,任何时点上的人口结构都是历史人口生育、死亡和迁移的结果,又是研究未来人口过程的基础。人口结构对社会发展起着促进或制约的作用。本文以人口结构作为主要研究对象,既可以分析人口内部结构的特点与变动趋势,也可以反映人口发展的趋势和规律性,并进一步考察人口结构与社会经济因素的相互关系。
国际上通常将人口结构分为三类(见图3):
– 6
–
(1)增长型(年轻型):图形上表现为底部宽,顶部狭窄,即少年儿童人口比高,老年人口比低,显示人口快速成长。此类型人口结构的特点是死亡率快速衰减,而出生率未改变,或仅缓慢降低的结果。
(2)静止型(成年型):图形上表现为各年龄组的比例较相似。这一类型人口结构的特点是低死亡率及接近更替水平的生育率。只有当死亡率水平为千分之十至十五,妇女生育率低于2的情况存在至少20年,才会形成这类人口结构。大部分生活水准高,预期寿命长,及成长率低的发达国家属于此类型。
(3)缩减型(老年型):图形表现为顶部宽,底部相对较窄,显示一种负的人口成长结构。通常发生在长期死亡率超过出生率时。这种类型的人口通常面临低生育率和老龄化的问题。
(a) 增长型 (b) 静止型
– 7 –
(c) 缩减型
图3 人口结构的三种类型
Fig.3 Tree types of population structure
与人口金字塔相比,人口年龄树有明确的物理意义。它通过年龄树的生长变化来模拟人口结构的发展过程;用年龄树枝叶的生长来表征人口的年龄增长;用年龄树枝叶的凋零来表征人口的死亡;用人口年龄树树形的健康状况来反映人口结构的健康状况。
对照图1中的上海市人口年龄树可以发现,上海市目前的人口结构属于缩减型,顶端枝叶茂盛,而底端枝叶稀少,这样的人口年龄树已经与发达国家的形状相同。因此,上海市的人口年龄结构也面临与其它发达国家一样的问题,也就是人口负增长以及人口老龄化。
2.3 人口发展方程
按人口控制论的观点,人口状态指某一区域内人口按年龄分布的状况,人口状态随时间变化的过程叫人口发展过程。要对人口结构的变化趋势进行研究,就必须
– 8
–
建立一个人口发展的系统,设计合理的人口发展预测模型,对不同年龄、不同性别的人口数进行预测,并进一步得到各项人口指标。通过将这些人口指标与决策者关注的问题相联系,可以对人口问题进行定量与定性分析,为政策措施提供相应的参考方案。
根据不同时期不同地区人口发展的特点,专家学者建立了各种人口预测方法来模拟人口发展过程,如一元线性回归法[1]、自回归法[2]、指数函数法、幂函数法、多元回归模型法、灰色系统GM(1,1)法[3]、系统动力学法[4]等,上世纪70年代末80年代初,宋健、于景元等人建立了人口发展的偏微分方程[5] ,将我国的人口研究从定性分析引入定量分析,对人口数量和出生率、死亡率等人口指数进行了预测,因此应用最为广泛和成功。
由于人口政策的变动和生育习惯的改变,现今人口的生育模式、死亡率等参数已经发生了巨大的变化,当时建立模型的结论和条件已经不适用于现在的情况,本文在宋健等人工作的基础上,重新考虑现在的人口状况对人口动力系统的影响,计算并给出各种人口指数。
2.3.1 人口发展方程的连续形式
引起人口年龄结构变化的三大要素是出生、死亡、迁移,人口发展方程描述了人口年龄结构与出生率、死亡率和迁移人口数的关系,从动力学的角度反映了人口发展的变迁过程,人口发展方程的连续模型为:
– 9 –
∂p(r,t)∂p(r,t)=−µ(r,t)p(r,t)+g(r,t)+∂t∂r
p(r,t)=p0(r)
p(0,t)=ϕ(t)=µ(t)N(t)
ϕ(t)=β(t)∫h(r,t)k(r,t)p(r,t)drr1r2······························································(2.1)
式中,
p(r,t):人口年龄分布密度函数, p(r,t)=∂N(r,t)/∂r。N(r,t)表示t时刻某地区年龄小于r的人口的总数,是关于r的非减函数。
µ(r,t):某地区t时刻年龄为r的人的死亡率
ϕ(t): t时刻某地区单位时间内出生婴儿总数
N(t): t时刻某地区人口总数
β(t): 妇女平均生育率,即总和生育率
h(r,t):妇女生育模式函数
k(r,t):性别比例函数
g(r,t):某地区t时刻迁移人口数
r1,r2:妇女育龄区间,通常r1=15,r2=49
从控制论的角度来看,人口状态p(r,t)为输出量,通过可控变量妇女生育率β(t)可调控出生人口数ϕ(t),进而影响人口状态,形成反馈控制(图4)。
– 10 –
图4 人口状态方程控制框图
Fig.4 Control chart of population development equations
2.3.2 人口发展方程的矩阵形式
根据年龄移算理论[6],可以从某一时点的某年龄组人数推算一年(或n年)后年龄相应增长一岁(或增长n岁)的人口数。在这个人口数的基础上减去相应年龄的死亡人数,并考虑人口迁移,就可以得到未来某年龄组的实际人口数。对于0岁的新生人口,则需要通过生育率作重新计算。
当社会经济条件变化不大时,各年龄组死亡率比较稳定,相应活到下一年龄组的比例即存活率也基本上稳定不变。因而可以根据现有的分性别年龄组存活率推算未来各相应年龄组的人数。
即,若某t年年初有r岁人口数xr(t)人,次年(t+1)年年初这些人长了一岁为(r+1)岁。若µr(t)为这批人在一年内的死亡率,gr(t)为迁移进来的人口数,则(t+1)年年初(r+1)岁的人口数为xr(t)×(1−µr(t))+gr(t)。0岁人口数x0(t)需通过妇女生育情况另行计算,人口发展方程数据流图见图5。
– 11
–
图5 人口发展方程的数据流图
根据上述推导,以一岁一组的人口统计数据为观测值,将人口发展方程离散化,用矩阵形式表示,可以得到人口发展方程的另一种形式:
x(t+1)=H(t)x(t)+β(t)B(t)x(t)+G(t)
x0(t+1)=(1−µ00(t))Ψ(t)
Ψ(t)=β(t)∑ki(t)hi(t)xi(t)
i=r1r2
x(t)=(x0(t),x1(t),……xm−1(t))T m为最大存活年龄
G(t)=(g0(t),g1(t),……gm(t))T
– 12
–
001−µ(t)01H(t)=01−µ2(t)ΛΛΛΟ00000 1−µm(t)00
0Λ0ΛB(t)=Μ0Λ0br1(t)Λ00ΛΜ0Μ0Λbr2(t)0Λ00ΛΜ0Μ0Λ00Μ0·········································(2.2) bi(t)=(1−µ00(t))(1−µ0(t))ki(t)hi(t),i=r1…r2,
bi(t):某地区t年i岁妇女所对应的生育率
本文以人口发展矩阵方程为主模型,并在此基础上进一步建立生育率、死亡率、迁移率的子模型。
2.4 人口预测方法概述
2.4.1 自回归法
假定人口发展过程近似于直线状,由于当前人口数量受到历史变化状况的影响,可以用自回归模型来预测未来人口数。
X(t+1)=a+bX(t)···························································(2.3) 其中,X(t)为人口数,a、b为参数。
2.4.2 指数函数法
假定人口发展过程近似于指数状态,前一段时间内发展缓慢,越往后人口增长
– 13 –
越快,可以用指数模型预测人口数。
X(t)=aebt···································································· (2.4) 其中,a、b为参数。
2.4.3 幂函数法
假设人口随时间变化曲线前部分斜率大,后部分斜率逐渐减小,可以选用幂函数来预测。
X(t)=atb····································································· (2.5)
其中,a、b为参数。
2.4.4 多元回归模型法
人口系统除了人口本身,还受经济、政策等各种要素的影响。人口发展是人口与各要素之间相互关联的结果。如果将这些因素都考虑在内,预测未来人口,称为多元回归。
Y=b+b1x1+b2x2+Λ+bnxn·····································(2.6)
其中x1、x2…xn为影响人口的各种因素,b、b1…bn为参数。
2.4.5 灰色系统GM(1,1)法
在没有规律可寻或资料不全的情况下,可以用灰色系统GM(1,1)进行预测,模型为
x(k+1)=(x(1)⋅u/a)⋅e−ak+u/a·······························(2.7)
式中,x(k)对应一组人口数据序列
2.4.6 时间序列法[29,30]
– 14 –
时间序列预测方法的基本思想是:预测一个现象的未来变化时,用该现象的过去行为来预测未来。即通过时间序列的历史数据揭示现象随时间变化的规律,将这种规律延伸到未来,从而对该现象的未来做出预测。时间序列预测法是一种重要的预测方法,对资料的要求比较单一,只需变量本身的历史数据。但对数据的完整性及样本数量要求较高。用于人口数据预测的时间序列模型主要有自回归移动平均模型ARMA(p,q)、自回归综合移动平均模型ARIMA(p,d,q)等几类。
2.4.7 神经网络法[28]
人口增长具有非线性动力学特性,BP神经网络有很强的自学习、自适应能力,可以克服某些人口预测方法中的人为随机因素。它通过对连续或断续的输入作为状态响应而进行信息处理,采用逼近的方式来解决问题。
神经网络是一种由多个神经元以某种规则连接而形成的层次网络结构,通过向环境学习获取知识并改进自身性能,即通过对输入样本的学习训练建立输入与输出之间的非线性映射关系。利用神经网络预测就是把已知的一个序列作为输入值,把要预测的值作为输出值,对该序列进行学习训练,构造网络建立非线性映射来逼近该序列的实际变化规律,对输出结果进行预测。
a1Λan为观测到的人口时序数,作为输入层,输出层c1为要预测的数据,建kkk
立输入节点,输出节点数分别为n、1的3层BP神经网络模型(图6)。选取一组输入输出数据作为训练样本输入网络,经过正向传播输出和反向传播修正权值完成网络学习的过程。然后进一步输入下一组人口时序数据得到预测值。
– 15 –
W
V1hn
图6 三层BP神经网络的拓扑结构
Fig.6 The topology structure of Three layer BP Neural Network
自回归、指数函数、幂函数都要求人口数据具有明显的规律性,只有对于特定地区的人口状况才适用。多元回归模型涉及较多影响因素,而如何对这些因素进行定量是研究的难点。灰色系统、时间序列和神经网络法适用于不同类型的人口数据,但后两种方法需要大量的历史数据,相对操作也比较复杂。因此本文的预测主要采用灰色系统GM(1,1)模型。
– 16
–
第三章 生育率模型
3.1 生育率指标说明
生育率反映了育龄妇女的生育能力和生育水平,按参照标准的不同,对生育率的定义也不同。人口学上用来衡量生育率的指标主要有年龄别/组生育率,世代生育率和总和生育率。
年龄别/组生育率指某个年龄(或年龄组)的育龄妇女在某一年的平均生育率,可以通过人口统计资料直接获得,能够反映生育率的年龄分布趋势。
世代生育率(Completed Cohort Fertility Rate)以每一世代各年龄层的方式,记录一个妇女一生中生育的子女总数,反映各世代实际的生育率变化,是生育率的队列指标[7]。
总和生育率(Total Fertility Rate)假设妇女按照某一年的年龄别生育率度过育龄期,平均每个妇女在育龄期生育的孩子数被称为总和生育率。实际上,它就是假设一个妇女在整个育龄期都按照某一年的年龄别生育率生育的情况下,一生所生育孩子的总数,是生育率的时期指标。
– 17 –
图7 世代生育率(CFR)与总和生育率(TFR)的比较[8]
Fig. 7 Comparison of CFR and TFR
要统计世代生育率必须对一代人的整个生育年龄区间的生育行为进行跟踪,因此总和生育率使用更为普遍。总和生育率和世代生育率的主要区别在于参照的时间体系不同,总和生育率可以视为对世代生育率的一种近似。但实质上,两者的内涵有显著差异(图7)。生育率的分析方法也可相应地分为两大类,即队列分析法(以世代生育率CFR为指标)和时期分析法(以总和生育率TFR为指标)。从理论上来说,队列分析法更能反映妇女一生的生育水平,但总和生育率更容易获得。因此,时期分析法使用更广泛。在本课题研究中,以总和生育率来表征生育水平的大小。
3.2 生育率模型
生育率模型可以分为两大类[9]。第一类为演绎模型,即从某些理论假设出发来推导出的模型。例如,1974年A. J. Coale 和T. J. Trussell提出用模型生育率表来研究妇女生育规律[10,11]。1978年,法国人口学家John Bongaarts根据生育率和生育率
– 18
–
直接决定因素(如结婚、避孕、人工流产和产后不孕概率等)之间的关系建立了综合生育率模型[12-16]。第二类模型为归纳模型,其特点是通过对大量统计数据的分析,找出共同点来。此类模型往往有明确的数学形式,便于计算和仿真,也是本文研究的重点,以下是几个使用较广的归纳模型。
3.2.1 Compertz模型[17-20]
Compertz函数早先用于人口死亡率的研究,随后被推广到了生育率的研究上。Wunsch(1966)和Martin(1967)评估了将Compertz模型运用在生育率研究上的可行性。Compertz模型的数学形式如下:
F(x)=FABx ·····························································(3.1)
F(x)=∑f(i) ·····························································(3.2)
i=r1x
其中,x:年龄;F(x):累计生育率;F:总和生育率;f(i):年龄为i的妇女的生育率;A、B:描述生育率趋势的参数。
3.2.2 Gamma模型[20-22]
1988年Bell利用多变量1981年Hoem采用Gamma函数配适分年龄别生育率。
宋健亦将Gamma函数时间序列模型估计Gamma函数的参数以预测年龄别生育率。
应用于中国的生育率数据,得到较好的拟合效果。Gamma函数数学形式如下:
βαα−1−βxf(x)=xe=Kxα−1e−βx
Γ(α)···································(3.3)
其中,α-1表示函数转折高度系数;β为函数转折收敛系数,代表函数尾端的收敛速度。
3.2.3 Lognormal模型[23]
– 19 –
生育率的年龄分布曲线与近似正态分布类似[24]。因此,可以在概率分布函数的基础上构造生育率模型。Lognormal(对数正态分布模型)最早由黄荣清提出[25,26],其数学表述为:
[ln(x−x0)−µ]2
f(x)=k1××exp{−22σσπ·················(3.4) 1
式中,x0为起始生育年龄,本文令x0=14岁;kl为对数正态分布函数所对应的尺度变换因子,与生育水平相关。由模型计算得到的期望生育年龄为:
exp(µ+σ2
2)+x0
参数µ和σ决定了分年龄别生育率曲线的形状:在µ相同的条件下,σ越小,到达期望生育年龄的时间就越短;在σ相同的条件下,µ越小,期望生育年龄周围生育率越高。
3.2.4 Poisson分布模型
本文提出了另一种基于随机分布函数的生育率模型,该模型用泊松分布函数来描述分年龄别生育率。模型的数学表述为:
f(x)=kp×
该模型的期望生育年龄为: λ(x−x)e−λ0(x−x0)!·················································(3.5)
λ+x0
式中,起始生育年龄x0也取14岁;kp是泊松分布函数所对应的尺度变换因子;λ表征了从起始生育年龄x0至平均生育年龄的时间长度。若λi为第i孩生育率模型的参数,则λi+1−λi可以表征生育第i孩至生育第i+1孩的平均间隔时间的大小。
3.2.5 生育率组合模型
– 20 –
由于上述模型都是基于某一特定函数而建立的,适用范围小,定量地看,尚无法满足不同生育率数据对模型的精度要求。为了改进模型精度,扩大模型的适用范围,本文构造了分年龄别生育率组合模型(composite fertility rate model):
[ln(x−x0)−µ]2λ(x−x0)e−λ
exp{−+(1−α)····························(3.6) f(x)=kc×{α2()!x−x2σσ2π01
除了上述五个模型以外,国内外一些学者还研究了双指数曲线、多项式等数学函数对生育率的拟合效果[27]。研究发现,在一般情况下,某一地区的生育率年龄分布模式是不会随时间变迁而发生明显改变的,因此可以使用一些简单的函数(包含较少的参数,一般为4-5个)来模拟生育率的年龄分布。另一方面,模型的精度主要取决于实际生育率统计数据与所用模型函数的曲线形状的接近程度。用不同模型拟合不同地区的生育率数据,往往会得到不同的效果。研究表明,由于中国当前的生育率模式与以往的生育模式有较大不同,Compertz模型和Gamma模型对年龄别生育率的拟合精度不如Lognormal模型[23]。因此,本文将重点比较Lognormal模型、Poisson分布模型和生育率组合模型对中国及上海市分年龄别生育率的拟合情况以及这三个模型在生育率预测应用上的复杂度。
3.3 模型验证和比较
3.3.1 Lognormal模型与Poisson模型验证
运用分孩次的年龄别生育率统计资料[31,32]对上述模型进行验证,参数辨识使用最小二乘法,优化目标函数为:
min∑(yx−fx)2
x=1549
验证结果如表1所示,表中即要求实际生育率yx与模型输出fx的误差平方和最小。
– 21 –
RMSE为均方根误差。
表1 Lognormal和Poisson分布模型描述分孩次的年龄别生育率
Table 1 Comparison of Poisson model and Lognormal model for age-specific fertility rates 年份 孩次kl kp 期望生育年龄/岁 RMSE
LognormalPoissonLognormal Poisson
1.11423.44 23.20 0.0049 0.0106 1990 1 1.024
2 0.716 0.69926.78 26.16 0.0030 0.0044
3 0.284 0.28229.22 28.67 0.0018 0.0024
1994 1 0.927 1.03824.16 24.00 0.0038 0.0113
2 0.443 0.43027.57 26.94 0.0029 0.0029
3 0.114 0.10729.27 28.52 0.0013 0.0013
2000 1 0.860 0.91524.07 23.76 0.0022 0.0059
2 0.289 0.27828.96 28.30 0.0019 0.0011
3 0.065 0.05730.55 29.33 0.0001 0.0004
RMSE指标反映了优化目标函数值的大小,本文将其作为衡量模型精度的指标。图8所示为不同模型对2000年一孩、二孩、三孩生育率统计数据的拟合结果。就中国历年生育数据而言,在描述分孩次的年龄别生育率时,对数正态分布模型的精度一般高于泊松分布模型(也有例外,见图8(b))。
– 22 –
(a)
一孩
– 23
–
(b) 二孩
(c) 三孩
图8 2000年分孩次的年龄别生育率模型拟合结果与统计数据比较
Fig. 8 Comparison of the model with statistic data for age-specific fertility
由图8可知,对数正态分布模型和泊松分布模型反映的生育率变化趋势是一致的。在1990年至2000年间,生育水平呈下降趋势,二孩和三孩生育率下降幅度更为明显。就期望生育年龄来看,妇女生育一孩的平均年龄介于23、24岁间,随年份的变化不大。生育二孩和三孩的平均年龄随着年份的增加有明显的上升趋势。这种变化趋势完全符合我国的实际情况,说明运用对数正态分布模型和泊松分布模型来描述分年龄别生育率分布是可行的。
3.3.2 组合模型参数辨识
– 24 –
组合模型使用非线性最小二乘法辨识参数。非线性最小二乘法是否收敛,很大程度上依赖于待定参数起始值设置的质量。参数搜索的起始值越接近真值,计算结果精度越高,收敛越快。对于复杂的非线性模型,使用最小二乘法时往往会有多个局部极小点,设定的初值不同,可能会收敛到不同的局部极小点。因此,对于组合模型而言,待定参数初始值的选取是非常重要的。由于生育率组合模型是描述妇女分年龄别生育率分布的模型,各个参数都有明确的物理意义,在设定初值时必须予以充分考虑。
参数µ、σ、λ的初值可由妇女期望生育年龄推算。分析80年代以来的妇女生育统计数据,期望生育年龄一般为23至26岁(由妇女生育峰值年龄近似得到)。而对于Lognormal模型和Poisson分布模型,期望生育年龄分别为exp(µ+σ2/2)+14以及λ+14。因此,λ初值可取9~12。由于σ的范围一般为0~1,则µ初值可取1.7~2.5。
尺度变换因子kc是一个与生育水平高低密切相关的参数,而总和生育率是衡量生育水平最常用的指标,因此可以用总和生育率作为kc的初值。
通过调节α值,能使组合生育率模型更贴近分年龄别生育率分布的实际情况。由于对数正态分布模型在描述一般生育率时,精度要比泊松分布模型高(见图8),故将α的取值范围设定为0.5~2。α>1时,加权和变为加权差的形式。
综上所述,可将组合模型的初值设定为kc=总和生育率,µ=2.4,σ=0.5,λ=11,
即可得到模型参数的估计值。经反复验证后发现,选择不同的k值通过调节权值α,
和α值对算法的收敛影响最大,k的初值为总和生育率时,有很好的收敛性。对α初值的选择则直接影响到计算精度。
表2 组合模型参数的估计值(最小二乘法)
Table 2 Estimate parameter values of composite model by using least square methods
– 25 –
年份 α kc µ σ λ
1986年 1.21502.39882.41090.374912.5750
1989年 1.24932.24292.40220.384512.5310
1990年 1.40402.19972.42020.353411.7395
1994年 1.66671.54182.44970.314512.6358
1995年 1.37121.41862.35060.343112.0798
1997年 1.60931.45322.44060.307112.2750
1998年 1.54741.44942.43720.307812.0436
2000年 1.27821.21542.38660.338211.8319
2003年 1.32961.41352.40600.343311.4467
3.3.3 模型精度比较
– 26 –
图9 组合模型、对数正态分布模型及泊松分布模型精度比较(均方根误差)
Fig. 9 Comparison of accuracy of the three models
相比对数正态分布模型和泊松分布模型,组合模型的均方根误差更小,精度得到明显提高(图9)。另外,利用分年龄别生育率计算出生人数及出生率时,要分别乘以各年龄别平均育龄妇女人数或各年龄别育龄妇女人数占育龄妇女总人数的比重,因此生育高峰年龄段内(22-32岁)生育率的准确性显得尤为重要。而组合模
,型在生育高峰年龄段内的分年龄别生育率误差在三个模型中一般是最小的(图10)
进一步显示了组合模型的优点。
– 27
–
图10 不同模型分年龄别生育率误差比较(2003年抽样数据[31])
Fig. 10 Comparison of age-specific fertility rates error of the three models for 2003
Lognormal模型和Poisson分布模型数学形式简单,物理意义明确。Poisson分布模型参数最少,易于辨识参数,大大减少了参数预测的工作量,只需预测两组参数。组合模型精度最高,考虑到实际生育率不一定满足特定分布,该模型适用范围最广,但参数个数较多。Lognormal模型参数个数适中,拟合精度较高。这三个模型可以根据其优缺点及对实际数据的拟合情况选择最合适的模型进行应用。
3.4 生育率预测
每一年的分年龄别生育率均有35组数据,即使将其压缩成以每五岁年龄为间隔的年龄组生育率,也有7组数据。如果以不同年龄别或年龄组的生育率为预测单位,
– 28
–
预测的工作量会很大。1987年Bozik和Bell最早提出将主成分分析法应用于生育率
[33-36],其基本思想是将所有的分年龄别生育率视为多个变量,透过主成分分析缩减维度简化计算。由于各主成分间相互独立,可使用回归分析或时间序列等方法对每一主成分进行预测,将多变量预测问题转化为若干个单变量的预测。基于此原理,可以利用合适的生育率模型拟合历史统计数据,以辨识得到的各个参数作为观测序列,即要预测的主成分。分别对这些参数进行预测。然后,只需将各参数的预测值代入生育率模型,即可得到分年龄别生育率的预测值。
无论是Lognormal模型、Poisson分布模型或组合模型都是基于随机分布函数的生育率模型,具有类似的数学形式,可以概括为:
f(x)=k×h(x) ·····························································(3.7)
其中,x指妇女生育年龄;f(x)为生育率;h(x)是特定的生育模式近似函数;k为尺度变换因子,与生育水平高低有关。
假设妇女的生育意愿和期望生育年龄在20年内不发生显著变化,则可认为生育模式在这段时间内保持恒定,只需要对k值进行预测即可。
3.4.1 总和生育率预测
如果将分年龄别生育率f(x)作归一化处理,式3.7可以近似为
)f(x)=TFR×h(x)························································ (3.8)
即分年龄别生育率为总和生育率TFR和归一化后的生育模式的乘积。基于之前的假设,只需将原始生育率先做归一化处理,则对年龄别生育率的预测就可以简化为对总和生育率的预测。由于总和生育率的历史数据比分年龄别生育率的历史数据完备得多,在缺乏统计数据的情况下,用这种方法可以方便地得到分年龄别生育率
– 29 –
的预测值。
以总和生育率TFR为观测序列,应用灰色模型GM(1,1)进行预测。
(1) 建立GM(1,1)模型
原始数列X(k)={x(1),x(2),Λ,x(n)}一次累加生成向量Y(k),以弱化数列的随机性,强化其规律性。
Y(k)=∑x(i)
i=1kk=1,2,Λ,n································· (3.9)
GM(1,1)模型的一般形式为:
dY(t)+aY(t)=u······················································· (3.10) dt
其解为:
Y(k)=[X(1)−u/a]e−a(k−1)+u/a······························· (3.11)
其中a、u为需要辨识的参数。
(2) 参数辨识
令 ap= u
11 Μ
11(Y(1)+Y(2))−21−(Y(2)+Y(3))B=2Ο−1(Y(n−1)+Y(n))2
XN=[x(2)x(3)Λ′x(n)]
p=(B'B)B'XN
−1a=············································· (3.12) u
– 30 –
ˆ(k+1) 将辨识得到的参数a、u代入式3.11,得到Y(k+1)的估计值Y
ˆ(k+1)为 则待预测值X(k+1)的估计值X
ˆ(k+1)=Yˆ(k+1)−Yˆ(k)··········································· (3.13) X
(3) 预测实例
以1994年至2004年的中国总和生育率作为观测数列进行预测。
表3 总和生育率GM(1,1)模型预测结果
Table 3 Forecasted values of TFR by GM(1,1)
年份 1994 1995 1996 [***********]012002 2003 2004原始值 1.56 1.43
估计值 1.56 1.481.55 1.461.47 1.461.461.451.451.441.401.431.391.431.39 1.41 1.451.42 1.41 1.40
年份 2005 2006 2007 [***********]122013 2014 2015预测值 1.39 1.381.38 1.371.361.351.341.341.33 1.32 1.31
3.4.2 分年龄别生育率预测
根据前文的假设,以2003年的生育模式为基本生育模式,分别预测2004年及2015年分年龄别生育率。结合表2和表3的各项参数估计值,计算所得的2004年分年龄别生育率及2015年分年龄别生育率如图11、12。
– 31 –
图11不同模型对2004年分年龄别生育率的预测估计
Fig. 11 Forecasted values of 2004 age-specific fertilitis by different models
图12 组合模型对2015年全国分年龄别生育率的预测
Fig. 12 Forecasted values of 2015 age-specific fertilities by composite model
–
32
–
第四章 死亡率模型
4.1 人口死亡风险主要度量指标
人口学上反映死亡风险的指标主要有死亡力、死亡率和死亡概率。这三个指标都表征了个体死亡的可能性,但含义各不相同。
死亡力µ(x)(Force of mortality):又称瞬间死亡率,指某一确切年龄的死亡概率水平。
分年龄死亡率M(x,x+n)(age specific mortality):某年度从x岁至x+n岁之间的死亡人数,可以直接由统计数据获得。
分年龄死亡概率(age specific probability of mortality):已活到x岁的人有多大比例将在到达x+n岁之前死亡。
死亡力µ(x)数据难以得到,实际应用中一般使用平均死亡力(x)或累计死亡力。µ(x),M(x,x+n)和q(x,x+n)虽然都是描述死亡率的指标,但三者的物理意义有明显区别。若假定活到x岁的存活人数随年龄x的增加呈指数递减,则有以下关系:
q(x,x+n)=1−e−nM(x,x+n)············································· (4.1)
(x)=M(x,x+n)························································ (4.2) µ(x)=limq(x) ························································· (4.3)
∆x−>0
– 33 –
4.2 数据修匀
所谓数据修匀,即根据一个连续变量的不规则观察序列,通过修匀的方法得到一个光滑的有规则的修正序列,使其与观察值序列相和谐。当要修匀的数据范围比较大,用单个函数形式不能得到满意的修匀时,可以将数据分段。在不同的子范围上,用不同的函数拟合它,这种修匀方式通常称为样条修匀。1980年Benjamin和
Pollard将样条函数引入修匀理论中,首次用自然三次样条解决了人口死亡率的修匀问题[37]。在很多情况下,死亡率的统计数据以分年龄组的数据形式存在,数据修匀可以把这些被压缩的数据恢复成分年龄别数据。并且,数据修匀可以调整和修改异常值,以保持死亡率曲线的光滑性和必要的连续性。
表4 2003年中国分年龄组死亡率统计数据 Table 4 Chinese mortality statistics for 2003
年龄 男 女
0-4 5-9 10-1415-1920-2425-2930-3435-3940-4445-4950-5455-5960-6465-69
3.70.60.361.021.171.131.42.142.883.726.319.8715.8623.61
4.120.490.520.430.930.810.871.21.682.623.325.758.3418.42
– 34 –
70-7475-7980-8485-8990+
44.1873.52115.1
30.5149.2692.93
174.9117.44290.78289.57
以每一年龄组所对应的死亡率数据作为三次样条插值的连接点,用Matlab的插值函数interp1可以方便地将分年龄组数据还原为分年龄别数据。以2003年中国人口死亡率数据为例,插值结果见图13、14。
图13 2003年中国人口死亡率三次样条插值结果与实际数据比较(男) Fig. 13 Comparison of the interpolate values and real mortality for 2003 (male)
– 35 –
图14 2003年中国人口死亡率三次样条插值结果与实际数据比较(女) Fig. 14 Comparison of the interpolate values and real mortality for 2003 (female)
由于连接点处的数据使用分年龄组数据,即该年龄组平均死亡率,而非连接点本身所对应的实际死亡率数据,因此在低龄段尤其是高龄段有一定的误差,而在
5~80岁期间,通过插值得到的数据与实际数据非常接近。
4.3 死亡率模型
4.3.1 死亡率模型综述
人口死亡模型主要分为两大类,即间接度量模型和直接度量模型。60年代,英国人口学者W. Brass提出了logit模型生命表。该方法认为不同生命表上的存活概率经过logit变换后存在一种近似的线性关系,可以利用一个已知人口的生命过程来度
– 36
–
量另一个人口生命过程。这种模型形式简单,只有两个参数。70年代末80年代初,在logit体系基础上又发展为Basia和Ewbank的4个参数模型[38,39]。Brass 的logit体系作为人口死亡分析的方法,被中国人口学者广泛使用在人口分析上。我国学者黄荣清经研究发现,在一定条件下,同样是2个参数的l(x)的双对数模型的稳定性要比logit体系更好一些[40]。
死亡的直接度量模型就是以年龄为自变量、死亡风险(通常为死亡力或死亡概
率)为因变量的函数模型。其中以Gompertz(1825)的研究影响最为深远。1860年麦可海姆(Makeham)对该法则进行了补充。在此基础上,人口学家提出了各种不同的死亡模型。
在以下各模型中,x为年龄,µ(x)为死亡力函数
(1) Compertz模型:
µ(x)=αeβx
(2) Makeham模型
························································· (4.4)
µ(x)=αeβx+γ ························································· (4.5)
(3) Weibull模型:
µ(x)=αxβ
此模型不考虑0岁婴儿死亡率。
··························································· (4.6)
(4) Kannisto模型:
αeβxµ(x)= ··················································· (4.7) βx
1+α(e−1)
观察死亡率曲线可以发现,死亡率的年龄分布通常为U型(死亡水平较高时)
– 37 –
或J型(死亡水平较低,如图14)。在儿童少年期死亡率随年龄的上升而下降,在老年期死亡率随年龄的上升而上升,而青壮年期的死亡率变化则比较平稳。经研究发现,以中国的死亡率数据为例,在儿童少年期,Weibull模型的精度要高于Compertz模型[41],在高龄期,Kannisto模型的拟合效果好于其余模型[42]。Compertz模型低估低龄段死亡率,高估高龄段死亡率。Makeham模型改进了对低龄段死亡率估计的准确性[43]。因此,用上述模型对全年龄区间的死亡率进行描述并不合适,针对这一问题,一些学者提出了全年龄区间的死亡率模型[44]。
根据人从出生开始到生命结束的死亡风险,按不同年龄阶段,一般概括为三种不同形式的作用力。在死亡率模型中,从Thiele(1872)到Rogers & Plank(1983)的模型都把死亡力设计成三种不同函数之和:即一个递减函数(儿童少年期)、一个递增函数(老年期)和一个先增后减的函数(青壮年期)。
(5) T.N. Thile模型:
µ(x)=A1e−Bx+A2e−0.5B(x−C)+A3eBx························· (4.8)
1
2
3
2
(6) Heligman & Pollard模型
q(x)=e
其中,q(x)为死亡概率
A(x+B)c
+De
−E(lnx−lnF)2
GHx
+····················· (4.9) 1+GHx
(7) Roger & Plank模型
q(x)=A+Be−Cx+De−F(x−E)−e−G(x−E)+HeLx·························· (4.10)
从本质上说,死亡间接度量和直接度量两类模型之间并没有根本区别。所谓直接和间接不过是在度量这个过程时的比较参照系不同而已。我国学者就这两种模型
– 38 –
的内在联系进行了研究[45]。 4.3.2 分段死亡率模型
以1989年、1994年、1998年、2001年的中国死亡率人口统计数据为原始数据,通过最小二乘法或非线性最小二乘法分别对Compertz模型、Makeham模型、Weibull模型以及Kannisto模型进行验证,并计算各年龄区间的均方根误差,结果列于表5-表8。
表5 1989年中国人口死亡率各模型拟合均方根误差比较 Table 5 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00580.00220.0412
Weibull模型
0.0013 0.0043 0.0823
Kannisto模型
0.00595.41E-040.0058
0.00580.00110.0056
表6 1994年中国人口死亡率各模型拟合均方根误差比较 Table 6 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.010.00230.0448
Weibull模型
0.0015 0.0042 0.0854
Kannisto模型
0.01019.40E-040.0083
0.010.00160.0088
表7 1998年中国人口死亡率各模型拟合均方根误差比较 Table 7 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00850.00240.0443
0.00840.00140.0104
Weibull模型
0.0012 0.004 0.0785
Kannisto模型
0.00868.74E-040.0105
– 39 –
表8 2001年中国人口死亡率各模型拟合均方根误差比较 Table 8 Comparison of the mortality RMSE by different models
儿童少年期 青壮年期 老年期
Compertz模型 Makeham模型
0.00530.0020.0385
0.00510.00110.0096
Weibull模型
8.92E-04 0.0034 0.0731
Kannisto模型
0.00538.01E-04
0.01
比较表5-表8的数据,在儿童少年期,Weibull模型拟合效果最好。在青壮年期,
Kannisto模型的拟合效果最好。在老龄段,Makeham模型和Kannisto模型的拟合精度接近,但Makeham模型有3个参数,而Kannisto模型只有两个参数。
全年龄区间模型比上述单一函数更能有效地描述死亡率曲线特征。但是无论是
T.N. Thile模型、Heligman & Pollard模型还是Roger & Plank模型,其参数个数至少为6个。且模型本身都是非线性函数,参数的辨识比较困难。因此,本文构造一个新的可用于描述全年龄区间的死亡率模型,即死亡率分段模型。
考虑到死亡率在儿童少年期、青壮年期、老年期各有不同的特征,因此在每个区间分别使用不同的模型进行拟合。基于前文的分析,在儿童少年段使用Weibull模型,而在青壮年及老年期使用Kannisto模型。分段死亡率模型的数学形式为:
αxβ0
································ (4.11) µ(x)=
αeβx
x>14βx
α+−1(1)e
以2001年中国死亡率人口为原始数据验证分段死亡率模型,拟合结果见图15。死亡率分段模型在少年儿童期的均方根误差为3.66E-4,青壮年期的误差为8E-4,老年期的均方根误差为0.01,对比表8的数据,模型精度得到了提高。
– 40 –
图15 2001年中国人口死亡率分段模型拟合结果与实际数据比较 Fig.15 Comparison of mortality segmented model values with real data
4.4 死亡率预测
死亡率预测可以采用与生育率类似的方法,即主成分分析法,通过历史统计数据辨识死亡率分段模型的参数,可以得到四组参数序列。然后应用灰色模型等预测方法对这四组参数进行预测,得到的参数预测值再代入死亡率分段模型,即可得到要预测的分年龄别死亡率。在历史统计数据缺失的情况下,这种方法就显示出其局
限性。本文从影响死亡率的因素入手,通过人均国民生产总值GNP来预测死亡率。4.4.1 影响死亡率的因素
人口死亡是由多种因素决定的。死亡率主要和社会经济水平、生活气候环境、
– 41
–