榆林学院第五届大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
所属院系(请填写完整的全名): 能 源 工 程 学院 我们参赛选择的题号是( C )
参赛队员:
日期: 2013 年 5 月 18 日
一、问题重述
C 题:面试考核打分问题
某市统计局在公开招考面试环节中,组成一个六人专家小组,对51名应试者进行了面试考核,各位专家对每位面试者进行了打分(见附表),请你运用数学建模方法解决下列问题:
(1)补齐表中缺失的数据, 给出补缺的方法及理由,并给出录取顺序。
(2)六位专家中哪位专家打分比较严格,哪位专家打分比较宽松,并对六位专家的打分质量进行排序。
(3)作为人事部门主管,你认为哪些面试者应给予第二次面试的机会。在今后的面试工作中,如何合理安排面试工作。
二、问题分析
这个问题属于数类统计学随机性模型,可采用画图形、逻辑运算、数值运算等各种
数学方法和计算机技术。
三、模型假设
专家意外情况导致的数据缺失是一种完全随机缺失。
专家打分公平公正公开,不受任何人际关系影响并且在整个过程中保持一致 用人单位对每一位专家打分的重视程度相同。
四、符号说明
x i
(i 为1、2、3)表示专家所打分数的的平均数;
∧
x i 1给每位面试者的得分;s i (i 为1、2、3、
∧
ˆ和θˆθ1=g 1(X 1, X 2, , X n ) ,4、5、6)表示各位专家所打分数的方差;θθ2=g 2(X 1, X 2, , X n ) ,12称为置信限;
四、模型建立
统计学的思想是对随机事件的现象进行统计分析,将随机性归纳于可能的规律性
中。而且也可以从差异中发现趋势。因为该题有着统计学的本质特征:数据的随机性, 在该题我们将应用到统计中的统计数据分析和统计推断。将经收集好数据进行分析,得出及推断内中的趋势。
均值插补
根据辅助信息数据将样本分为若干组,使组内各单位的主要特征相似。然后分别介绍各组目标变量的均值,将各组均值作为组内所有缺失数据项的替补值。
i =51i =50
⎛i =48⎫⎛i =49⎫x 1= ∑X i 1+∑X i 1⎪÷50x 2= ∑X i 2+85⎪÷50x 3=∑X i 3÷50
i =50⎝i =1⎭⎝i =1⎭i =1; ;。
K-S 检验法原理:
K-S 检验是统计学中在对一组数据进行统计分析是所用到的一种方法。它是将需要
做统计分析的数据和另一组标准数据进行对比,求得它和标准数据之间的偏差的方法。一般在K-S 检验中,先计算需要做比较的两组观察数据的累积分布函数,然后求这两个累积分布函数的差的绝对值中的最大值D 。最后通过查表以确定D 值是否落在所要求对应的置信区间内。若D 值落在了对应的置信区间内,说明被检测的数据满足要求。反之亦然。
为了更直观的说明专家所给分值服从正态分布,本文运用MATLAB 软件绘出了专家1、专家2、专家3相对应所给分值的直方频率图、Q-Q 图(见 四、模型求解)。
区间估计模型:
区间估计指对总体中的一维参数θ,构造两个统计量:θ1=g 1(X 1, X 2, , X n ) 和
∧
ˆ
ˆ, θˆ⎤为θ的置α信区间,称θˆ和θˆ为置信限,概率称为显著水平(或置θ这时,称区间⎡1212⎣⎦
∧
信度),1-α称为置信水平(或置信概率)。
方差:
方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance )用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。
s 1=∑x i 1-x 1÷50
i =1
50
()
2
;
s 2=∑x i 2-x 2÷50
i =1
50
()
2
;
s 3=∑x i 3-x 3÷50
i =151
50
()
2
;
s 4=∑x i 4-x 4÷51
i =1
51
()
2
;
s 5=∑x i 5-x 5÷51
i =1
51
()
2
;
s 6=∑x i 6-x 6÷51
i =1
()
2
。
Q-Q 图:
Q-Q 图是一种散点图, 对应于正态分布的Q-Q 图, 就[1]是由标准正态分布的分位数为横坐标, 样本值为纵坐标的散点图. 要利用QQ 图鉴别样本数据是否近似于正态分布, 只需看QQ 图上的点是否近似地在一条直线附近, 而且该直线的斜率为标准差, 截距为均值. 用QQ 图还可获得样本偏度和峰度的粗略信息.
Q-Q 图可以用于检验数据的分布,所不同的是,Q-Q 图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。P-P 图和Q-Q 图的用途完全相同,只是检验方法存在差异。
由于P-P 图和Q-Q 图的用途完全相同,只是检验方法存在差异。要利用QQ 图鉴别样本数据是否近似于正态分布, 只需看QQ 图上的点是否近似地在一条直线附近, 而且该直线的斜率为标准差, 截距为均值.
用QQ 图还可获得样本偏度和峰度的粗略信息.
五、模型求解
(1)补齐表中缺失的数据,给出补缺的方法及理由,并给出录取顺序。
① 补齐表中缺失的数据, 给出补缺的方法及理由。(补齐后数据见附表)
由SPSS 软件求解: 局部数据,其中专家1第49号数据未得出用00表示,其他专家同理。
依次对专家1、2、3、4、5、6的其他数据进行分析,得出如下结果,如下图所示:
专家1的频率分布直方图 专家1的标准Q-Q 图
专家2的频率分布直方图
专家2的标准Q-Q 图
专家3的频率分布直方图 专家3的标准Q-Q 图
专家4的频率分布直方图 专家4的标准Q-Q 图
专家5的频率分布直方图
专家5的标准Q-Q 图
专家6的频率分布直方图 专家6的标准Q-Q 图
如图表可知:
专家1的置信区间在[69.3,76.2],均值72.8,修正后的均为72.9均在置信区间内,所以可估计专家甲的缺失值为73。
同理得出专家2的置信区间在[74.7,80.1],均值77.7,修正后的均值77.8均在置信区间内,所以估计专家乙的缺失值为78。
专家3的置信区间在[72.0,77.9]均值74.9修正后的均值75.1均在置信区间内,所以估计专家丙的缺失值为75。
(说明:5%修整均值就是把排在最前面和最后面5%的数据都删掉,之后再计算的均值,这样就使得均值不容易受均值影响,更能代表)
② 给出录取顺序
表一
(2)六位专家中哪位专家打分比较严格,哪位专家打分比较宽松,并对六位专家打分质量进行排序。
再根据SPSS 软件中的方差可推断出, 对于所有的应聘者,专家打分的均值可以作为衡量专家打分的一个重要标准,在均值相同时,专家打分方差越大说明打分越严格。据图表中数据,我们可得出专家中依严格到不严格的顺序为:
专家1→专家4→专家6→专家2→专家3→专家5
(3)作为人事部门主管,你认为那些面试者应给予第二次面试机会。在今后的面试工作中,如何合理安排面试工作。
因为专家评分标准不同,我们对面试者进行重新排名,先去掉6名专家中的最大值和最小值再求和,求平均数,表如下:
表二
① 将表二和表一进行比较,若以前二十名为录取资格,则表二前二十名中且没在表一前二十名中出现的应聘者应给与第二次机会。则第37名,31名,34名,46名,50名应给与第二次机会。
② 在今后的面试工作中,应该这样安排面试工作: 如果第二次面试的专家小组只由其中的 4 位专家组成。
若此项工作必须要求应聘者有较强的工作能力,则应请专家1,专家4,专家6和专家2组成专家组。
若要求很宽松,专家6、专家2、专家3、专家5组成。
11
若要求较宽松,则没有专家1和专家5,即 专家4、专家6、专家2、专家3。
六、模型评价
此模型可有效提高面试效率,减少人才损失,灵活的挑选应聘者。但均值插补会产生偏估计。总分排序对某些应聘者有一定的不公平性。
七、参考献文
[1]概率论与数理统计,(修订版)出版地:湖南教育出版社,2012.06第二版 [2] SPSS13.0统计软件教程 作者:张晓(东南大学)
[3]大学计算机应用基础 主编:杨兰芳 出版社:北京邮电大学 2010.08第一版
[4]缺失数据的处理方法 (均值插补法)访问网址
[5]数学建模及典型案例分析 作者:李志林,欧宜贵丛书名 出 版 社:化学工业出版
社 2007-04-01
八、附录
补全后的数据表格
12
13
榆林学院第五届大学生数学建模竞赛
承 诺 书
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。
所属院系(请填写完整的全名): 能 源 工 程 学院 我们参赛选择的题号是( C )
参赛队员:
日期: 2013 年 5 月 18 日
一、问题重述
C 题:面试考核打分问题
某市统计局在公开招考面试环节中,组成一个六人专家小组,对51名应试者进行了面试考核,各位专家对每位面试者进行了打分(见附表),请你运用数学建模方法解决下列问题:
(1)补齐表中缺失的数据, 给出补缺的方法及理由,并给出录取顺序。
(2)六位专家中哪位专家打分比较严格,哪位专家打分比较宽松,并对六位专家的打分质量进行排序。
(3)作为人事部门主管,你认为哪些面试者应给予第二次面试的机会。在今后的面试工作中,如何合理安排面试工作。
二、问题分析
这个问题属于数类统计学随机性模型,可采用画图形、逻辑运算、数值运算等各种
数学方法和计算机技术。
三、模型假设
专家意外情况导致的数据缺失是一种完全随机缺失。
专家打分公平公正公开,不受任何人际关系影响并且在整个过程中保持一致 用人单位对每一位专家打分的重视程度相同。
四、符号说明
x i
(i 为1、2、3)表示专家所打分数的的平均数;
∧
x i 1给每位面试者的得分;s i (i 为1、2、3、
∧
ˆ和θˆθ1=g 1(X 1, X 2, , X n ) ,4、5、6)表示各位专家所打分数的方差;θθ2=g 2(X 1, X 2, , X n ) ,12称为置信限;
四、模型建立
统计学的思想是对随机事件的现象进行统计分析,将随机性归纳于可能的规律性
中。而且也可以从差异中发现趋势。因为该题有着统计学的本质特征:数据的随机性, 在该题我们将应用到统计中的统计数据分析和统计推断。将经收集好数据进行分析,得出及推断内中的趋势。
均值插补
根据辅助信息数据将样本分为若干组,使组内各单位的主要特征相似。然后分别介绍各组目标变量的均值,将各组均值作为组内所有缺失数据项的替补值。
i =51i =50
⎛i =48⎫⎛i =49⎫x 1= ∑X i 1+∑X i 1⎪÷50x 2= ∑X i 2+85⎪÷50x 3=∑X i 3÷50
i =50⎝i =1⎭⎝i =1⎭i =1; ;。
K-S 检验法原理:
K-S 检验是统计学中在对一组数据进行统计分析是所用到的一种方法。它是将需要
做统计分析的数据和另一组标准数据进行对比,求得它和标准数据之间的偏差的方法。一般在K-S 检验中,先计算需要做比较的两组观察数据的累积分布函数,然后求这两个累积分布函数的差的绝对值中的最大值D 。最后通过查表以确定D 值是否落在所要求对应的置信区间内。若D 值落在了对应的置信区间内,说明被检测的数据满足要求。反之亦然。
为了更直观的说明专家所给分值服从正态分布,本文运用MATLAB 软件绘出了专家1、专家2、专家3相对应所给分值的直方频率图、Q-Q 图(见 四、模型求解)。
区间估计模型:
区间估计指对总体中的一维参数θ,构造两个统计量:θ1=g 1(X 1, X 2, , X n ) 和
∧
ˆ
ˆ, θˆ⎤为θ的置α信区间,称θˆ和θˆ为置信限,概率称为显著水平(或置θ这时,称区间⎡1212⎣⎦
∧
信度),1-α称为置信水平(或置信概率)。
方差:
方差是各个数据与平均数之差的平方的平均数。在概率论和数理统计中,方差(英文Variance )用来度量随机变量和其数学期望(即均值)之间的偏离程度。在许多实际问题中,研究随机变量和均值之间的偏离程度有着很重要的意义。
s 1=∑x i 1-x 1÷50
i =1
50
()
2
;
s 2=∑x i 2-x 2÷50
i =1
50
()
2
;
s 3=∑x i 3-x 3÷50
i =151
50
()
2
;
s 4=∑x i 4-x 4÷51
i =1
51
()
2
;
s 5=∑x i 5-x 5÷51
i =1
51
()
2
;
s 6=∑x i 6-x 6÷51
i =1
()
2
。
Q-Q 图:
Q-Q 图是一种散点图, 对应于正态分布的Q-Q 图, 就[1]是由标准正态分布的分位数为横坐标, 样本值为纵坐标的散点图. 要利用QQ 图鉴别样本数据是否近似于正态分布, 只需看QQ 图上的点是否近似地在一条直线附近, 而且该直线的斜率为标准差, 截距为均值. 用QQ 图还可获得样本偏度和峰度的粗略信息.
Q-Q 图可以用于检验数据的分布,所不同的是,Q-Q 图是用变量数据分布的分位数与所指定分布的分位数之间的关系曲线来进行检验的。P-P 图和Q-Q 图的用途完全相同,只是检验方法存在差异。
由于P-P 图和Q-Q 图的用途完全相同,只是检验方法存在差异。要利用QQ 图鉴别样本数据是否近似于正态分布, 只需看QQ 图上的点是否近似地在一条直线附近, 而且该直线的斜率为标准差, 截距为均值.
用QQ 图还可获得样本偏度和峰度的粗略信息.
五、模型求解
(1)补齐表中缺失的数据,给出补缺的方法及理由,并给出录取顺序。
① 补齐表中缺失的数据, 给出补缺的方法及理由。(补齐后数据见附表)
由SPSS 软件求解: 局部数据,其中专家1第49号数据未得出用00表示,其他专家同理。
依次对专家1、2、3、4、5、6的其他数据进行分析,得出如下结果,如下图所示:
专家1的频率分布直方图 专家1的标准Q-Q 图
专家2的频率分布直方图
专家2的标准Q-Q 图
专家3的频率分布直方图 专家3的标准Q-Q 图
专家4的频率分布直方图 专家4的标准Q-Q 图
专家5的频率分布直方图
专家5的标准Q-Q 图
专家6的频率分布直方图 专家6的标准Q-Q 图
如图表可知:
专家1的置信区间在[69.3,76.2],均值72.8,修正后的均为72.9均在置信区间内,所以可估计专家甲的缺失值为73。
同理得出专家2的置信区间在[74.7,80.1],均值77.7,修正后的均值77.8均在置信区间内,所以估计专家乙的缺失值为78。
专家3的置信区间在[72.0,77.9]均值74.9修正后的均值75.1均在置信区间内,所以估计专家丙的缺失值为75。
(说明:5%修整均值就是把排在最前面和最后面5%的数据都删掉,之后再计算的均值,这样就使得均值不容易受均值影响,更能代表)
② 给出录取顺序
表一
(2)六位专家中哪位专家打分比较严格,哪位专家打分比较宽松,并对六位专家打分质量进行排序。
再根据SPSS 软件中的方差可推断出, 对于所有的应聘者,专家打分的均值可以作为衡量专家打分的一个重要标准,在均值相同时,专家打分方差越大说明打分越严格。据图表中数据,我们可得出专家中依严格到不严格的顺序为:
专家1→专家4→专家6→专家2→专家3→专家5
(3)作为人事部门主管,你认为那些面试者应给予第二次面试机会。在今后的面试工作中,如何合理安排面试工作。
因为专家评分标准不同,我们对面试者进行重新排名,先去掉6名专家中的最大值和最小值再求和,求平均数,表如下:
表二
① 将表二和表一进行比较,若以前二十名为录取资格,则表二前二十名中且没在表一前二十名中出现的应聘者应给与第二次机会。则第37名,31名,34名,46名,50名应给与第二次机会。
② 在今后的面试工作中,应该这样安排面试工作: 如果第二次面试的专家小组只由其中的 4 位专家组成。
若此项工作必须要求应聘者有较强的工作能力,则应请专家1,专家4,专家6和专家2组成专家组。
若要求很宽松,专家6、专家2、专家3、专家5组成。
11
若要求较宽松,则没有专家1和专家5,即 专家4、专家6、专家2、专家3。
六、模型评价
此模型可有效提高面试效率,减少人才损失,灵活的挑选应聘者。但均值插补会产生偏估计。总分排序对某些应聘者有一定的不公平性。
七、参考献文
[1]概率论与数理统计,(修订版)出版地:湖南教育出版社,2012.06第二版 [2] SPSS13.0统计软件教程 作者:张晓(东南大学)
[3]大学计算机应用基础 主编:杨兰芳 出版社:北京邮电大学 2010.08第一版
[4]缺失数据的处理方法 (均值插补法)访问网址
[5]数学建模及典型案例分析 作者:李志林,欧宜贵丛书名 出 版 社:化学工业出版
社 2007-04-01
八、附录
补全后的数据表格
12
13