沙尘暴与各项气象指标的关系分析
(白 杨 林 森 钱俊青)
2008-08-31
摘要
本文对沙尘暴发生的气象条件进行了研究,并在此基础上对沙尘暴的发生进行了预测。
首先,我们对原始数据进行了预处理,对于孤立的错误值采用局部线性插值法进行填补,对于大量丢失的数据,将其舍弃后再选择其他数据替代。
问题一,考虑到短期预测要求可信度较高,而长期预测则仅需确定沙尘暴的发展趋势,针对这种情况,我们分别对沙尘暴天数的数据特征和沙尘暴发生的内在机理进行分析,建立灰色预测模型和回归模型进行求解并对比。灰色模型中,将观测到的沙尘暴天数组成时间序列,建立灰色预测模型,通过matlab软件编程,求解得到未来每年沙尘暴发生天数,可以看出,沙尘暴正在减轻趋于稳定。回归模型中,将沙尘暴天数作为因变量,各种气象因素作为自变量,建立多元线性回归模型,运用SPSS软件进行最小二乘估计,计算出回归系数,再根据由多项式拟合得到的气象因素预测值,就可以预测沙尘暴情况。最后,使用这两个模型分别进行长期和短期预测,经过对比和互相验证后,我们发现回归模型比较适合做短期预测,灰色模型比较适合做长期预测,这是因为每月沙尘暴天数以年为周期进行波动。
问题二,我们以标准化后的气象因素数据为研究对象,建立多元统计模型,在SPSS中,对其进行主成分分析,得出了沙尘暴风险和各气象因素的关系函数,将此定义为沙尘暴的风险度,用以表征沙尘暴发生的可能性和严重程度。根据已有数据得出的风险度大小,结合实际情况,我们把沙尘暴分为三个等级:强、中、弱,当达到强等级时,应当发布沙尘暴警报。接下来,我们建立了BP神经网络模型,采用误差向后传播算法,使用matlab的神经网络工具箱编程,提取出沙尘暴天数和各气象因素的函数关系。与多元统计模型相互验证后,我们发现神经网络模型得出的预测值和实际值吻合得非常好,沙尘暴天数的平均误差为0.096天,更具有实际价值。
问题三,对于观测站点的分类问题,我们根据数据特点对其进行简化,将单个观测站点45年的数据通过求平均值抽象为一个样本。然后分别建立系统聚类模型和动态聚类模型,利用DPS数据处理系统将所有样本进行处理,最后将所有观测站点分为四类,
问题四中,我们借鉴了决策支持系统(DSS)的开发模式,从模块结构的层次设计了全国范围的沙尘暴预警系统
最后,针对主成分分析法的缺陷——存在一定的模糊性,我们提出了使用模糊数学的改进方案。
关键词
沙尘暴、灰色预测、多元线性回归、主成分分析、聚类分析、BP神经网络
一、问题重述
沙尘暴是一种灾害性天气,近年来频繁发生,对环境和人们的生产、生活都造成了影响甚至危害。对沙尘暴的发生条件需要加以研究,以便人们进行有效的预测和预防。
问题一:对沙尘暴的发生次数进行分析,建立相应的数学模型,使人们可以根据相关气象数据的监测结果,估计出沙尘暴在某地区某段时间内发生的次数。
问题二:评估沙尘天气气象等级,预测在近期内观测站所在地发生沙尘暴的风险,并在高风险时发出警报信息。
问题三:将中国西北地区的不同观测站点进行分类,建立模型,以描述每种类型地区中沙尘暴的天气成因。
问题四:对引起沙尘暴发生、发展的气候背景和天气成因建立适于业务应用的预报指标系统。可根据需要选取不同的数据,但需要考虑数据的易获得性和模型的健壮性(Robustness)。
二、基本假设
1 假设测量记录中的误差足够的小,不会对题目研究产生影响
2 假设观测站的地理位置具有代表性。
3 假设剔除无效数据后,剩余的数据仍有足够的代表性。
4 假设沙尘暴单位时间内发生次数越多,其危害程度越大,越值得人们关注。 5 假设各气象指标的年平均值可以用来衡量该指标当年的整体水平。
三、符号说明 符号
yn 意义 表示公元(n+1960)年,例如,y1表示1961年
表示某年第n个月
表示沙尘暴天数
表示yn全年的沙尘暴天数
月蒸发量
月平均风速
大风日数
月平均气温
月降水量 mn T Tyn Evap WindSpeed Gale AirTemp Rainfall
Humidity
TotalRad
ScatterRad
DirectRad 月相对湿度 总辐射 散射辐射 直接辐射
反射辐射
净全辐射 ReflectRad NetRad
四、数据预处理和概念解释
4.1数据的预处理
在分析数据的时候,我们发现题目所给的各观测站记录中,所有61年到81年的测量数据与81-05年的相比较,都缺少“月蒸发量”这一项纪录。究其原因,我们认为可能是六七十年代我国并不具备足够的技术条件来准确地测量月蒸发量,或者当时的经济状况不允许长期大规模做这些测量。也可能是在不断的研究过程中,发现月蒸发量对沙尘暴的形成有着不可忽视的影响,从而自81年之后开始对月蒸发量进行观测和记录。
另外我们发现,在陕西省测站点测量数据记录中,有大量的数据缺失。我们认为这是在数据保存、传送的过程中发生了错误。由于有足够多的其他省份的详细资料,所以本文中对这些遗漏的数据不予研究。
同时,在辐射量的数据表格中,存在大量不包含信息的数字——“99.99”,我们认为其原因可能是在测量的时候发生量程溢出,也可能是数据保存过程中的错误,由于无法恢复数据,我们只能选取没有错误的数据进行研究。
4.2概念解释
所谓的沙尘暴,是指强风将地面大量尘沙吹起,使空气很混浊,水平能见度小于1公里的天气现象。本题目数据中涉及到了很多专业词汇,还有一些概念用词不严谨,含义模糊,我们参阅了相关专业文献,综合考虑了本题的语意环境,对这些概念解释如下:
直接辐射:太阳向宇宙空间发射的电磁波和粒子流称为太阳辐射,到达地球的太阳辐射通过大气,一部分到达地面,称为直接太阳辐射。本题中的“直接辐射”,表示的含义是直接太阳辐射的强度大小。
散射辐射:太阳辐射一部分直接到达地表,另一部分被大气的分子、大气中的微尘、水汽等吸收、散射和反射。被散射的太阳辐射一部分返回宇宙空间,另一部分到达地面,到达地面的这一部分成为散射太阳辐射。本题中的“散射辐射”表示散射太阳辐射的强度。
总辐射:直接辐射和散射辐射的总和。
反射辐射:总辐射投射到地面和物体上,产生的反射射线,本文中“反射辐
射”表示反射辐射的强度。反射辐射量与投射到地表的太阳辐射量和地面材料、颜色及覆盖状况有关,主要取决于各种地表面的日射反射率。干燥土壤比潮湿土壤的反射辐射强,森林的反射辐射很弱,而积雪地面的反射辐射最强。
净全辐射:由天空(包括太阳和大气)向下投射的和由地表(包括土壤、植物、水面)向上投射的全波段辐射量之差称为净全辐射。
大风发生日数:气象学中,一般把平均风速达到17 米/秒(八级)以上的风称为大风。本题目中,我们认为所谓的大风就是风力足够大,有可能引起沙尘暴的风,也就是说,大风是沙尘暴的必要非充分条件。大风发生日数就是将某个月大风发生的时间,按照24小时等于1天,折合成对应的天数而得到的。此概念题目数据中每次出现时的描述不尽相同,有“大风日数”、“大风发生”等表述形式,我们认为其是同一概念。
五、模型建立、求解
5.1 问题一求解
5.1.1问题分析
若要根据相关气象数据的监测结果,估计出沙尘暴在某地区某段时间内发生的次数,可以根据考虑或不考虑沙尘暴内在机理,分别采用两种思路。
一种思路,仅依靠观测到的沙尘暴天数这一项气象数据,利用灰色理论进行预测。沙尘暴发生受到天气因素、植被情况、大气候环境等诸多因素的影响,这其中一些指标是容易确定的,而一些指标则不易确定,也就是说其信息并不是完全的,所以我们可把它看作一个灰色系统。
另一种思路,也可以认为沙尘暴天数是由其他的各种气象因素,如降雨量、月平均风速等因素所决定的,综合考虑其他气象因素与沙尘暴天数之间的关联,根据各因素的变化趋势,便可以得出沙尘暴天数的变化趋势。
为了更准确的考察沙尘暴的变化趋势,我们根据是否考虑其气象成因,分别建立灰色模型和多元线性回归模型进行研究,并对比互相检验。
初步分析数据,可以发现一年内每个月的沙尘暴天数相差比较大,以内蒙古52267号观测站1962年的情况为例,如图5.1.1所示,可以很清楚地看出,沙尘暴主要集中在春夏季节,而秋冬季很少有沙尘暴发生,长期上看来,每个月沙尘暴发生次数,以一年为周期存在着一个波动。
为了避开这个波动的影响,首先我们研究每年的沙尘暴次数,得出整体的变化趋势。
5.1.2 使用灰色模型进行长期预测
灰色预测模型是用灰色理论对现实和动态问题的分析预测,这种方法具有精度高、所需样本数据少、计算简便、可检验等优点,适合对小样本数据进行预测。而且沙尘暴发生受到天气因素、植被情况、大气候环境等诸多因素的影响,这其中一些指标是容易确定的,而一些指标则不易确定,也就是说其信息并不是完全的,所以我们可把它看作一个灰色系统。我们首先采用灰色预测模型对沙尘暴的整体变化趋势进行预测。
(1)模型建立
考虑到沙尘暴的变化规律是一个高度复杂的不确定系统,对沙尘暴非常精确的预测是不可能做到的,所以首先我们将每个月的沙尘暴天数加和,得到每年的沙尘暴天数,以淡化随机因素的影响。
取某一个观测站的数据记录,计算得出每年沙尘暴的天数{Ty1,Ty2,…Ty45},将这些沙尘暴天数看作一个时间序列T,为了和后面的累加数列区分,将每年沙尘暴天数的序列改写成以下形式:
(0)(0)T(0)={Ty(0)} 1,Ty2,…Ty45,…
那么这个时间序列就有45个观测值,对各项值进行累加,得到新的累加数列T(1):
(1)(1)T(1)={Ty(1)} 1,Ty2,…Ty45,…
其中,T的计算方法为:T(1)
yn(1)yn0=∑Tyi(n≤45)
i=1n
那么GM(1,1)模型相应的白化微分方程为:
dT(1)
+αT(1)=μ dt
其中,α为发展灰数,μ为内生控制灰数。
αˆ为待估参数向量,αˆ=(),可利用最小二乘法求解。解得: 设αμ
ˆ=(BTB)BTYnα −1
求解微分方程,即可得预测模型:
沙尘暴与各项气象指标的关系分析
(白 杨 林 森 钱俊青)
2008-08-31
摘要
本文对沙尘暴发生的气象条件进行了研究,并在此基础上对沙尘暴的发生进行了预测。
首先,我们对原始数据进行了预处理,对于孤立的错误值采用局部线性插值法进行填补,对于大量丢失的数据,将其舍弃后再选择其他数据替代。
问题一,考虑到短期预测要求可信度较高,而长期预测则仅需确定沙尘暴的发展趋势,针对这种情况,我们分别对沙尘暴天数的数据特征和沙尘暴发生的内在机理进行分析,建立灰色预测模型和回归模型进行求解并对比。灰色模型中,将观测到的沙尘暴天数组成时间序列,建立灰色预测模型,通过matlab软件编程,求解得到未来每年沙尘暴发生天数,可以看出,沙尘暴正在减轻趋于稳定。回归模型中,将沙尘暴天数作为因变量,各种气象因素作为自变量,建立多元线性回归模型,运用SPSS软件进行最小二乘估计,计算出回归系数,再根据由多项式拟合得到的气象因素预测值,就可以预测沙尘暴情况。最后,使用这两个模型分别进行长期和短期预测,经过对比和互相验证后,我们发现回归模型比较适合做短期预测,灰色模型比较适合做长期预测,这是因为每月沙尘暴天数以年为周期进行波动。
问题二,我们以标准化后的气象因素数据为研究对象,建立多元统计模型,在SPSS中,对其进行主成分分析,得出了沙尘暴风险和各气象因素的关系函数,将此定义为沙尘暴的风险度,用以表征沙尘暴发生的可能性和严重程度。根据已有数据得出的风险度大小,结合实际情况,我们把沙尘暴分为三个等级:强、中、弱,当达到强等级时,应当发布沙尘暴警报。接下来,我们建立了BP神经网络模型,采用误差向后传播算法,使用matlab的神经网络工具箱编程,提取出沙尘暴天数和各气象因素的函数关系。与多元统计模型相互验证后,我们发现神经网络模型得出的预测值和实际值吻合得非常好,沙尘暴天数的平均误差为0.096天,更具有实际价值。
问题三,对于观测站点的分类问题,我们根据数据特点对其进行简化,将单个观测站点45年的数据通过求平均值抽象为一个样本。然后分别建立系统聚类模型和动态聚类模型,利用DPS数据处理系统将所有样本进行处理,最后将所有观测站点分为四类,
问题四中,我们借鉴了决策支持系统(DSS)的开发模式,从模块结构的层次设计了全国范围的沙尘暴预警系统
最后,针对主成分分析法的缺陷——存在一定的模糊性,我们提出了使用模糊数学的改进方案。
关键词
沙尘暴、灰色预测、多元线性回归、主成分分析、聚类分析、BP神经网络
一、问题重述
沙尘暴是一种灾害性天气,近年来频繁发生,对环境和人们的生产、生活都造成了影响甚至危害。对沙尘暴的发生条件需要加以研究,以便人们进行有效的预测和预防。
问题一:对沙尘暴的发生次数进行分析,建立相应的数学模型,使人们可以根据相关气象数据的监测结果,估计出沙尘暴在某地区某段时间内发生的次数。
问题二:评估沙尘天气气象等级,预测在近期内观测站所在地发生沙尘暴的风险,并在高风险时发出警报信息。
问题三:将中国西北地区的不同观测站点进行分类,建立模型,以描述每种类型地区中沙尘暴的天气成因。
问题四:对引起沙尘暴发生、发展的气候背景和天气成因建立适于业务应用的预报指标系统。可根据需要选取不同的数据,但需要考虑数据的易获得性和模型的健壮性(Robustness)。
二、基本假设
1 假设测量记录中的误差足够的小,不会对题目研究产生影响
2 假设观测站的地理位置具有代表性。
3 假设剔除无效数据后,剩余的数据仍有足够的代表性。
4 假设沙尘暴单位时间内发生次数越多,其危害程度越大,越值得人们关注。 5 假设各气象指标的年平均值可以用来衡量该指标当年的整体水平。
三、符号说明 符号
yn 意义 表示公元(n+1960)年,例如,y1表示1961年
表示某年第n个月
表示沙尘暴天数
表示yn全年的沙尘暴天数
月蒸发量
月平均风速
大风日数
月平均气温
月降水量 mn T Tyn Evap WindSpeed Gale AirTemp Rainfall
Humidity
TotalRad
ScatterRad
DirectRad 月相对湿度 总辐射 散射辐射 直接辐射
反射辐射
净全辐射 ReflectRad NetRad
四、数据预处理和概念解释
4.1数据的预处理
在分析数据的时候,我们发现题目所给的各观测站记录中,所有61年到81年的测量数据与81-05年的相比较,都缺少“月蒸发量”这一项纪录。究其原因,我们认为可能是六七十年代我国并不具备足够的技术条件来准确地测量月蒸发量,或者当时的经济状况不允许长期大规模做这些测量。也可能是在不断的研究过程中,发现月蒸发量对沙尘暴的形成有着不可忽视的影响,从而自81年之后开始对月蒸发量进行观测和记录。
另外我们发现,在陕西省测站点测量数据记录中,有大量的数据缺失。我们认为这是在数据保存、传送的过程中发生了错误。由于有足够多的其他省份的详细资料,所以本文中对这些遗漏的数据不予研究。
同时,在辐射量的数据表格中,存在大量不包含信息的数字——“99.99”,我们认为其原因可能是在测量的时候发生量程溢出,也可能是数据保存过程中的错误,由于无法恢复数据,我们只能选取没有错误的数据进行研究。
4.2概念解释
所谓的沙尘暴,是指强风将地面大量尘沙吹起,使空气很混浊,水平能见度小于1公里的天气现象。本题目数据中涉及到了很多专业词汇,还有一些概念用词不严谨,含义模糊,我们参阅了相关专业文献,综合考虑了本题的语意环境,对这些概念解释如下:
直接辐射:太阳向宇宙空间发射的电磁波和粒子流称为太阳辐射,到达地球的太阳辐射通过大气,一部分到达地面,称为直接太阳辐射。本题中的“直接辐射”,表示的含义是直接太阳辐射的强度大小。
散射辐射:太阳辐射一部分直接到达地表,另一部分被大气的分子、大气中的微尘、水汽等吸收、散射和反射。被散射的太阳辐射一部分返回宇宙空间,另一部分到达地面,到达地面的这一部分成为散射太阳辐射。本题中的“散射辐射”表示散射太阳辐射的强度。
总辐射:直接辐射和散射辐射的总和。
反射辐射:总辐射投射到地面和物体上,产生的反射射线,本文中“反射辐
射”表示反射辐射的强度。反射辐射量与投射到地表的太阳辐射量和地面材料、颜色及覆盖状况有关,主要取决于各种地表面的日射反射率。干燥土壤比潮湿土壤的反射辐射强,森林的反射辐射很弱,而积雪地面的反射辐射最强。
净全辐射:由天空(包括太阳和大气)向下投射的和由地表(包括土壤、植物、水面)向上投射的全波段辐射量之差称为净全辐射。
大风发生日数:气象学中,一般把平均风速达到17 米/秒(八级)以上的风称为大风。本题目中,我们认为所谓的大风就是风力足够大,有可能引起沙尘暴的风,也就是说,大风是沙尘暴的必要非充分条件。大风发生日数就是将某个月大风发生的时间,按照24小时等于1天,折合成对应的天数而得到的。此概念题目数据中每次出现时的描述不尽相同,有“大风日数”、“大风发生”等表述形式,我们认为其是同一概念。
五、模型建立、求解
5.1 问题一求解
5.1.1问题分析
若要根据相关气象数据的监测结果,估计出沙尘暴在某地区某段时间内发生的次数,可以根据考虑或不考虑沙尘暴内在机理,分别采用两种思路。
一种思路,仅依靠观测到的沙尘暴天数这一项气象数据,利用灰色理论进行预测。沙尘暴发生受到天气因素、植被情况、大气候环境等诸多因素的影响,这其中一些指标是容易确定的,而一些指标则不易确定,也就是说其信息并不是完全的,所以我们可把它看作一个灰色系统。
另一种思路,也可以认为沙尘暴天数是由其他的各种气象因素,如降雨量、月平均风速等因素所决定的,综合考虑其他气象因素与沙尘暴天数之间的关联,根据各因素的变化趋势,便可以得出沙尘暴天数的变化趋势。
为了更准确的考察沙尘暴的变化趋势,我们根据是否考虑其气象成因,分别建立灰色模型和多元线性回归模型进行研究,并对比互相检验。
初步分析数据,可以发现一年内每个月的沙尘暴天数相差比较大,以内蒙古52267号观测站1962年的情况为例,如图5.1.1所示,可以很清楚地看出,沙尘暴主要集中在春夏季节,而秋冬季很少有沙尘暴发生,长期上看来,每个月沙尘暴发生次数,以一年为周期存在着一个波动。
为了避开这个波动的影响,首先我们研究每年的沙尘暴次数,得出整体的变化趋势。
5.1.2 使用灰色模型进行长期预测
灰色预测模型是用灰色理论对现实和动态问题的分析预测,这种方法具有精度高、所需样本数据少、计算简便、可检验等优点,适合对小样本数据进行预测。而且沙尘暴发生受到天气因素、植被情况、大气候环境等诸多因素的影响,这其中一些指标是容易确定的,而一些指标则不易确定,也就是说其信息并不是完全的,所以我们可把它看作一个灰色系统。我们首先采用灰色预测模型对沙尘暴的整体变化趋势进行预测。
(1)模型建立
考虑到沙尘暴的变化规律是一个高度复杂的不确定系统,对沙尘暴非常精确的预测是不可能做到的,所以首先我们将每个月的沙尘暴天数加和,得到每年的沙尘暴天数,以淡化随机因素的影响。
取某一个观测站的数据记录,计算得出每年沙尘暴的天数{Ty1,Ty2,…Ty45},将这些沙尘暴天数看作一个时间序列T,为了和后面的累加数列区分,将每年沙尘暴天数的序列改写成以下形式:
(0)(0)T(0)={Ty(0)} 1,Ty2,…Ty45,…
那么这个时间序列就有45个观测值,对各项值进行累加,得到新的累加数列T(1):
(1)(1)T(1)={Ty(1)} 1,Ty2,…Ty45,…
其中,T的计算方法为:T(1)
yn(1)yn0=∑Tyi(n≤45)
i=1n
那么GM(1,1)模型相应的白化微分方程为:
dT(1)
+αT(1)=μ dt
其中,α为发展灰数,μ为内生控制灰数。
αˆ为待估参数向量,αˆ=(),可利用最小二乘法求解。解得: 设αμ
ˆ=(BTB)BTYnα −1
求解微分方程,即可得预测模型: