2012建模论文

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 指导教师或指导教师组负责人 (打印并签名) :

日期: 年 月 日

编 号 专 用 页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

葡萄酒的评价

摘要:本文建立了酿酒葡萄和葡萄酒的评价模型。针对第一个问题,结合品酒

员的打分情况,进行加权平均处理,用SPSS 软件进行卡方检验。可以得出两组对红葡萄的评价数据渐进显著性为1,即评价没有显著性差异;两个组对白葡萄酒的评价结果的相关性为0.176,双侧显著性为0.371,说明对白葡萄酒的评价存在显著性差异,结合平均值和标准差来考虑,则第二组的评价结果更可信。 对于第二问,我们对附表二中多次测量的一级指标取平均值,对酿酒红葡萄和白葡萄分别选取30个和29个一级指标的数据进行标准化处理,处理依据:

Z ij =

X ij -X

j

σ

, i =1, 2, , n ; j =1, 2, , p 得到标准化矩阵Z ,然后分别对这两个

j

标准化矩阵进行主成分分析,根据特征值大于1的原则,对酿酒红葡萄提取了7个主成分,它们的累积方差贡献率为84.92%对酿酒白葡萄提取了9个主成分,它们的累积方差贡献率为81.24%。酿酒红葡萄的主成分表达式为:

⎧Y 1=0. 105X 1+0. 237X 2+⋯-0. 693X 30⎪

⎪Y 2=0. 206X 1+0. 640X 2+⋯-0. 087X 30

,再根据表达式分别求出酿酒红葡萄7个⎨

⋯⋯⎪

⎪Y 7=0. 335X 1+0. 109X 2+⋯-0. 102X 30⎩

主成分数据,与第二组对葡萄酒的评分用Matlab 进行逐步回归分析,去掉一些影响较小的主成分,建立回归方程,代入数据求得评分,最后根据分级标准对酿

在第三问要研究两组随机变量间(Y 1, Y 2, , Y p ) 和(P 1, P 2, , P q ) 的相关关系,我们建立了典型相关分析模型,用SPSS 软件求解得到的红葡萄的典型相关模型。

U 1=0. 018Y 1-0. 847Y 2+0. 011Y 3+0. 380Y 4+0. 139Y 5+0. 337Y 6+0. 067Y 7

V 1=1. 057P 1-0. 491P 2-0. 150P 3-0. 356P 4-0. 293P 5+0. 065P 6+0. 787P 7+0. 192P 8+0. 395P 9

第四问根据第二问确定的葡萄的质量等级指标,结合附件一以及第二组评价

的可靠性,根据Spss 软件分析各指标显著相关性,以红葡萄酒的综合评分为因变量,适当选取葡萄质量等级,口感分析等指标,运用Spss 软件对数据进行回归分析建立模型分析得得到了下面的葡萄酒的综合评分模型,其表达式如下:

Y =-20.151+0.471X

1

+0.826X

2

+1.014X

3

+0.728X

4

+0.695X

5

R

2

=897

得出酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有较大影响的结论。 关键词:卡方检验 主成分分析 逐步回归 典型相关分析 Spss Matlab

二.问题重述

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年分一些葡萄酒的评价结果,附件2和附件3分别给出了该年分这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题: 1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

三.问题分析

第一问:结合品酒员的打分情况,进行加权平均处理,每位品酒员的权重都

设1/10,最后得出不同类别不同样品酒的总得分情况, 将两组红葡萄酒的评价结果输入到SPSS 软件,通过显著性检验中的卡方检验

第二问:对于葡萄酒的质量,我们选取第二组的评价结果,取10个评酒员的平均数据;理化指标我们只考虑一级指标,对于多次测量的取平均值,由于不同指标数据的量纲不同,由于指标分类太多,为了简化先用Spss 软件对所有指标数据进行标准化处理,我们先对多个指标进行主成分分析,选出累积影响达到85%以上的成分,再进行聚类分析,从而可以把不同的酿酒葡萄按照不同的指标划分为不同的类别。

第三问:由于酿酒葡萄的理化指标和葡萄酒的理化指标数目不一样,在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系。然而这些统计方法在研究两组变量之间的相关关系时却无能为力。我们用典型相关分析就可以识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。

第四问:根据第二问确定的葡萄的质量等级指标,结合附件一以及第二组评价的可靠信,根据Spss 软件分析各指标显著相关性,以红葡萄酒的综合评分为因变量,适当选取葡萄质量等级,口感分析等指标,运用Spss 软件对数据进行回归分析建立模型分析得出酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有较大的影响。

四.模型的假设和符号说明

4.1 模型的假设

1. 假设葡萄酒样品都是同一时间段酿造以及取出的; 2. 假设各位品酒员都是客观公正的;

3. 假设酿酒葡萄只含有监测到的化学成分,而无其他化学成分; 4. 假设数据录入是完全准确的;

5假设葡萄酒样品的评价是在常温下进行的;

6假设酿酒葡萄在常温下短时间内不会产生化学反应;

五.模型建立及求解

5.1问题1.

分析附件1中两组评酒员的评价结果有无显著差异,并确定哪组结果更可信。在本部分中,我们将按照如下步骤进行建模,即数据处理、模型构建,模型结果及分析。

(1)附件1的数据处理

由于前面假设部分对品酒员都作出了客观公正的假设,因此本次对数据进行处理按照如下的方式进行,即根据不同的酒类品种及样品酒的不同,结合品酒员的打分情况,进行加权平均处理,每位品酒员的权重都设1/10,最后得出不同类别不同样品酒的总得分情况,如下表1所示。

表1 葡萄酒类别及其得分情况

(2)附件1的模型构建

在构建数学模型之前,我们先通过散点图直观的了解两组品酒人员对不同类别的样品酒的评价情况,分别如下图1及图2情况。

1

2

3

4

5

6

7

8

9

10

11

12

[***********][***********]7

图1 两组红葡萄样品酒相关性散点图

98765431

2

3

4

5

[***********][1**********]2

图2 两组白葡萄酒样品酒相关性散点图

[1**********]8

注:红线代表第一组品酒人员对不同样品酒的评价情况;黄线代表第二组品酒人员对不同样品酒的评价情况;蓝线代表第一组品酒人员对不同样品酒的评价情况;海绿线代表第二组品酒人员对不同样品酒的评价情况。

由图1及图2 ,我们能够比较直观的得出,两组品酒人员对红葡萄酒的评价情况有很强的相关性,并且这种相关性体现在线性相关,对于图2中的情况,我们直观得出两组数据之间的相关性不明显或者说线性相关性不够明显。因此,对于红葡萄酒的相关性情况,我们将通过SPSS 软件[4]进行线性建模,对于白葡萄酒的情况我们将通过clementine 软件进行数学建模,具体情况如下。

将两组红葡萄酒的评价结果输入到SPSS 软件,通过显著性检验中的卡方检验[1],分析得出结果如下:

制下显著相关,并通过线性回归分析得出相关系数为1.219。由此说明这两组的品酒人员对红葡萄酒的评价是显著相关的,并对单个样本进行t 检验,得出均值、标准差以及均值的 如下表所示:

值以及标准差来看,第二组对红葡萄酒的评价更加客观准确。

将两组白葡萄酒的评价结果输入到clememtine 软件,通过双变量相关性检验,得出结果如下:

,双侧显著性为0.371,这两个数据说明该两组白葡萄酒的样品的显著相关性不够明显,也由此说明两组数据之间不存在显著相关性。

均值以及标准差来看,第二组对白葡萄酒的评价更加客观准确。 5.2问题二

针对所研究的问题,根据指标选择的针对性、可操作性、全面性等原则,选取了附表二的31项一级指标进行主成分分析[2]。 5.2.1将原始指标的数据标准化

采集27维随机向量X =(X 1, X 2, , X p ) T ,从题目附表二中可以看出,氨基酸基本上等于各个指标的相加,说明氨基酸的作用可由其二级指标的各个数据所代替,可以由二级指标取代氨基酸的作用。由此也可以类推出其它所有二级指标都可以用其对应的一级指标来表示,一级指标一共有30个,30个样品对样本阵元进行如下标X i =(X i 1, X i 2, X ip ) ,i =1, 2, , 30(n >p ) 构造样本阵,准化变换:

Z ij =

X ij -X

j

T

σ

, i =1, 2, , n ; j =1, 2, , p

j

(1-1)

n

n

其中X j =

i =1

X ij n

, σ

2j

∑(X

=

i =1

ij

-X j ) n

2

, 得到标准化阵Z 。见附表1。

5.2.2 对标准化阵Z 求相关系数矩阵

R =[r ij ]p ⨯p =

Z Z n

T

(1-2)

其中r ij =

∑z

ki

⋅z kj

n

, i , j =1, 2, , p 。系数矩阵见附表2.

5.2.3 解相关系数阵R 的特征方程R -λI p =0得p 个特征根,确定主成分

m

∑λ

对于特征根λ1≥λ2≥ ≥λp >0,按

j =1p

j

≥0. 85

j

确定m 值,使信息的利用

∑λ

j =1

率达85%以上,对每个λj , j =1, 2, , m , 解方程组Ra =λj a , 求得单位正交特征向

量,

⎛a 11⎫⎛a 12⎫⎛a 1p ⎫ ⎪ ⎪ ⎪ a 21⎪ a 22⎪ a 2p ⎪a 1= , a = , , a =2p ⎪ ⎪ ⎪

⎪ ⎪ ⎪ a ⎪ a ⎪ a ⎪⎝p 1⎭⎝p 2⎭⎝pp ⎭

用Spss 对标准化后的数据进行主成分分析得主成分特征根及贡献率和累积贡献

率 。

表6:红葡萄解释的总方差

根据特征值大于1的原则,提取了7个公共因子(主成分),它们的累积方差贡献率为84.919%,说明这7个公因子(主成分)提取了原始指标数据84.919%的信息。

表7:白葡萄解释的总方差

根据特征值大于1的原则,提取了9个公共因子(主成分),它们的累积方差贡献率为81.236%,说明这8个公因子(主成分)提取了原始指标数据81.236%的信息。

5.2.4 将标准化后的指标变量转换为主成分

Y i =a 1i X 1+a 2i X 2+ +a pi X p ,i =1, 2, , p

Y 1称为第一个主成分,Y 2称为第二个主成分, , Y m 称为第m 个主成分。Spss 分

析的结果为

表8:红葡萄的成分矩阵

于是,可以建立主成分表达式:

⎧Y 1=0. 105X 1+0. 237X 2+⋯-0. 693X 30⎪

⎪Y 2=0. 206X 1+0. 640X 2+⋯-0. 087X 30

⋯⋯⎪

⎪Y 7=0. 335X 1+0. 109X 2+⋯-0. 102X 30⎩

表9:白葡萄的成分矩阵

于是,可以建立白葡萄的主成分表达式:

⎧Y 1=0. 587X 1+0. 220X 2+⋯+0. 648X 29⎪

⎪Y 2=0. 109X 1+0. 640X 2+⋯+0. 159X 29

⋯⋯⎪

⎪Y 9=-0. 105X 1-0. 04X 2+⋯-0. 201X 29⎩

5.2.5 对m 个主成分进行综合评价

对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。总因子得分估计值为

^

8

Z =

∑ωY ,(i =1, 2, ⋯31)

i i

i =1

其中ωi =λi 是第i 个公共因子f i 的方差贡献率。

由Matlab 编程算得影响红葡萄的七个因素与27组样品的关系

表10:影响红葡萄的7个主成分因素对应的27组样品的数据

为了求得各个主成分因素对葡萄酒质量的影响,由表10和表11我们已经知道各个酿酒葡萄样品的各个主成分因素的值,第一问知道第二组的评酒员评的结果合理,因此我们用第二组评酒员的评分作为因变量,各个主成分作为因变量建立多元回归,由于某些变量对结果的影响程度较小,可以剔除,为此我们建立了逐步回归模型。

逐步回归是实现变量选择的另一种方法,基本思路为,先确定一个初始子集,然后每次从子集外影响显著的变量中引入一个对y 影响最大的,在对原来子集中的变量进行检验,在不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。

由第一问分析得第二组的分析合理,所以选用第二组对红葡萄酒和白葡萄酒的综合评分作为被影响因素,Y i (i =1, 2, ⋯, 7)(红葡萄) ,Y j (j =1, 2, ⋯, 9)(白葡萄) 作为影响评分的因素进行逐步回归分析

我们运用Matlab 对红葡萄进行逐步回归,得到如下图形:

Coefficients with Error Bars

X X X X

X X

X

Coeff. t-stat p-val

Coefficients with Error Bars

Coeff. t-stat p-val

Model History

Model History

R M S E

R M S E

图3:Matlab 逐步回归界面

逐步回归交互式画面中红线条表示移去的指标,结果为

T =71. 6296-0. 227541Y 1+0. 686865Y 2-0. 7467Y 4-0. 773192Y 5

对白葡萄进行逐步回归分析, 用Matlab 做得结果如下:

X X X X X X X X Coeff. t-stat p-valCoefficients with Error Bars

Coeff. t-stat p-valR M S E

R M S E

图4:Matlab 逐步回归界面

求得模型的结果为

T =76. 5321+0. 260385Y 1-0. 309262Y 3

根据公式求得红葡萄酒样品的得分为

得分的情况直接评出酿酒葡萄的质量,对其进行分级。

我们选用的等级指标为

5.3 问题三

在本问题中遇到要研究两组随机变量(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 间的相关关系。(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 之间的相关关系。因此就要找出(x 1, x 2, , x p ) 的一个线性组合u 及(y 1, y 2, , y q ) 的一个线性组合v ,希望找到的u 和v 之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(u ,v )还不能完全刻划两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(u ,v )不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止

首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,

⎧u 1=a 11x 1+a 21x 2+⋯+a p 1x p

⎩v 1=b 11y 1+b 21y 2+⋯+b q 1y q

然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。

⎧u 2=a 12x 1+a 22x 2+⋯+a p 2x p

v =b y +b y +⋯+b y 121222q 2q ⎩1

u 2与u 1, v 2与v 1不相关,但关性被提取完为止。

u 2和v 2相关。如此继续下去,

直至进行到

r 步,两组变量的相

可以得到r 组变量,这里r ≦min(p , q ).

为研究酿酒葡萄与葡萄酒理化指标之间的关系,用Spss 进行典型相关分析,我们用第二问求得的主成分作为变量进行分析,其中红葡萄的7个主成分表示为:Y1,Y2,Y3,Y4,Y5,Y6,Y7; 取红葡萄酒理化指标中的一级指标,多次测量的求平均值,在对数据进行标准化处理,处理结果见附表

分析结果如下:

1.给出典型相关系数

Canonical Correlations

1 .971 2 .956 3 .899 4 .764 5 .456 6 .430 7 .354

第一典型相关系数为0.971,第二典型相关系数为0.956,第三典型相关系数为0.899

2.给出典型相关的显著性检验

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .000 147.234 63.000 .000 2 .004 96.894 48.000 .000 3 .045 54.155 35.000 .020 4 .235 25.316 24.000 .389 5 .565 10.004 15.000 .819 6 .713 5.918 8.000 .656 7 .875 2.341 3.000 .505

从左至右分别为Wilks 的 统计量、卡方统计量、自由度和伴随概率。从表中可以看出,在0.05的显著性水平下,3对典型变量中有第一对,第二对和第三对一共3对典型变量是显著相关的,其余四对相关性均不显著。 3. 给出两组典型变量的标准化系数

Standardized Canonical Coefficients for Set-1

1 2 3 4 5 6 7 Y1 .018 .372 -.249 -.306 .288 -.490 .618 Y2 -.847 .402 .069 -.031 .218 .223 -.131 Y3 .011 .275 -.682 .547 -.305 .216 .144 Y4 .380 .759 .443 .179 -.102 -.054 -.197

Y5 .139 -.120 .053 .560 .806 .024 .010 Y6 .337 .159 -.218 -.477 .290 .708 -.002 Y7 .067 .091 -.471 -.183 .180 -.396 -.736

来自红葡萄理化指标的主成分指标的第一典型变量U 1为

U 1=0. 018Y 1-0. 847Y 2+0. 011Y 3+0. 380Y 4+0. 139Y 5+0. 337Y 6+0. 067Y 7

第二典型变量U 2为

U 2=0. 372Y 1+0. 402Y 2+0. 275Y 3+0. 759Y 4-0. 120Y 5+0. 159Y 6+0. 091Y 7

第三组典型变量U 3 为

U 3=-0. 249Y 1+0. 069Y 2-0. 682Y 3+0. 443Y 4+0. 053Y 5-0. 218Y 6-0. 471Y 7

Standardized Canonical Coefficients for Set-2

1 2 3 4 5 6 7 P1 1.057 1.766 -.121 .927 -2.260 -.575 1.218 P2 -.491 -.193 -1.996 -.595 .357 -1.463 -.899 P3 -.150 -.230 1.537 .035 1.447 2.821 2.661 P4 -.356 .283 .070 -.753 -1.152 -.969 -.235 P5 -.293 -.052 -.255 .378 -.671 -.053 -1.263 P6 .065 -.560 .516 1.285 -.330 -.600 .733 P7 .787 .324 -.066 1.222 -1.820 -.641 2.575 P8 .192 -.030 .218 -.582 -.804 -.062 1.282 P9 .395 .543 -.781 .386 -.825 .326 .635

来自白葡萄酒理化指标的第一典型变量V 1为

V 1=1. 057P 1-0. 491P 2-0. 150P 3-0. 356P 4-0. 293P 5+0. 065P 6+0. 787P 7+0. 192P 8+0. 395P 9

第二典型变量V 2为

V 2=1. 766P 1-0. 193P 2-0. 230P 3+0. 283P 4-0. 052P 5-0. 560P 6+0. 324P 7-0. 030P 8+0. 543P 9

第三组典型变量V 3为

V 3=-0. 121P 1-1. 966P 2+1. 537P 3+0. 070P 4-0. 255P 5+0. 516P 6-0. 066P 7+0. 218P 8-0. 781P 9

6. 给出两组变量的冗余分析

Redundancy Analysis:

Proportion of Variance of Set-1 Explained by Its Own Can. Var.

Prop Var CV1-1 .143 CV1-2 .143 CV1-3 .143 CV1-4 .143 CV1-5 .143 CV1-6 .143 CV1-7 .143

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .135 CV2-2 .130 CV2-3 .115 CV2-4 .083 CV2-5 .030 CV2-6 .026 CV2-7 .018

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .462 CV2-2 .191 CV2-3 .066 CV2-4 .074 CV2-5 .066 CV2-6 .064 CV2-7 .030

Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .436 CV1-2 .174 CV1-3 .053 CV1-4 .043 CV1-5 .014 CV1-6 .012 CV1-7 .004

在进行典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小,这就是典型变量的冗余分析。

表中的数据表明,提2取3前3对典型变量可以代表原始变量的大部分信息

于是得到本题的模型为

表18:红葡萄典型相关模型

由第一组典型相关方程可知,影响红葡萄质量方面的主要因素是Y 2, Y 4, Y 6(典型载荷分别为-0.847,0.380,0.337) ;红葡萄酒的第一典型变量V 1与P 1呈高度相关,说明单宁的含量对红葡萄酒的质量占有主要地位;根据第二组典型相关方程,

Y 4是红葡萄方面的主要因素,P 1(单宁)是反映红葡萄酒品质的重要指标;根据

第三组典型相关方程,红葡萄中Y 3和Y 7影响显著,P 4(总酚)对葡萄酒影响作用较大。

同理可求得白葡萄与白葡萄酒的典型相关模型(详细数据见附录:)

表19:白葡萄典型相关模型

其中U 1与V 1的关联度为0.921,U 2与V 21的关联度为0.846

5.4第四问

根据前面第一问知第二组品酒员可信度高,为了研究酿酒葡萄和葡萄酒理化指标对葡萄酒质量的影响因素,我们选取了第二组对红葡萄酒做的评分作为数据源。通过对附件中各种数据的分析,葡萄酒理化指标分析有外观分析、口感分析、香气分析、平衡整体评价以及各品酒员对酒进行的综合打分,以及第二问中所判断出的各种酿酒葡萄的等级分数,最终得出来如下表的综合数据

调用第二问中的表达式,从上表看出总共有五个因素影响葡萄酒最终的质量评定,但我们知道肯定还有其他因素存在,其他因素都认为是随机因素。 模型的建立

通过上述的论述,我们以酒的最终评分为因变量,以外观分析、口感分析、香气分析、平衡整体评价及葡萄的等级分数为自变量,建立多元线性回归模型如下:

这个模型是一个一般形式,其中x i 代表各个影响因素,而y 则代表着葡萄酒的评分, j 代表除解释变量以外其它对酒的评分有影响的因素的综合体。

从表中的数据我们可以看出,葡萄酒的得分与其它各因素相关系数都很大,说明其他因素和葡萄酒得分之间均在0.01的显著性水平上表现较强的相关性。另外从相关系数上可看出,各指标因素与葡萄酒的得分也有较高的相关系数。从此我们可以逐步引入葡萄等级分数指标、外观指标、口感指标、香气指标、平衡整体指标建立五个模型,其拟合优度检验数据如表所示。

d. 预测变量: (常量), 葡萄等级分数, 外观分析, 香气分析, 口感分析。

e. 预测变量: (常量), 葡萄等级分数, 外观分析, 香气分析, 口感分析, 平衡/整体评价。

求最优的回归方程是我们建立模型的基本出发点,而要达到这个目标的最佳方法就是逐步回归法。逐步回归法作为一种在线性回归分析和计算技术想结合的基础上派生出来的统计分析方法,能够从大量的可供选择的自变量中,按照一定的优良性要求建立回归模型,实现回归因子的挑选。下面我们来看看表4的方差分析。

表23:方差分析

在模型1中,按第一自由度为1,第二自由度为25,在给定显著性水平为0.05的情况下查得临界值为 F0.05(1,25)=4.24,而给出的F 值83.891>4.24,模型通过了F 检验,葡萄等级对葡萄酒的质量的影响是显著的,而且从Sig=0.000也可以检验出葡萄等级对葡萄酒的质量有很强的影响。在模型2中,我们按第一自由度为2,第二自由度为24,在给定显著性水平为0.05的情况下查得临界值

为F 0.05(2,24)=3.40,而给出的F 值43.204>3.40,而且Sig=0.000,于是我们得出葡萄等级和外观分析对葡萄酒的质量有较大的影响。模型3中,按第一自由度为3,第二自由度为23,在给定显著性水平为0.05的情况下查得临界值为F 0.05(3,23)=3.03,而给出的F 值46.405>3.03,Sig=0.000,所以我们得到的结论是模型通过了F 检验. 相应地,在模型4中,我们查得临界值F 0.05(4,22)=2.82,而给出的F 值47.910>2.82,模型通过F 检验,在模型5中,我们查得临界值F 0.05(5,21)=2.68,给出的F 值36.749>2.68,同时Sig=0.000,通过F 检验。因此,这五个解释变量对葡萄酒综合评价有较强的解释力度。 另外,我们还要对五个模型的参数进行估计和对各变量进行检验,通过SPSS 软件中的regression ,我们得出了五个回归模型的参数及相应的t 值,如表5所示:

为了方便起见,我们将葡萄酒的评分用Y 代替,葡萄等级分数用X 1表示,外观分析用X 2表示,香气分析用X 3表示,口感分析用X 4表示平衡整体评价用X 5表示,基于逐步回归的基本思想,我们可以得到如下方程:

Y =0.008+X 1 Y =-0.139+0.911X

Y =-7.411+0.6X

1

+0.663X

2

1

+0.816X

2

+1.307X

3

3

Y =-17.540+0.475X Y =-20.151+0.471X

1

+0.827X +0.826X

2

+1.033X +1.014X

+0.820X +0.728X

4

5

1234

+0.695X

这五个方程是通过逐步回归得出的。当只有一个变量的时候我们得出了(5-1),当有两个变量的时候,我们得出了方程(5-2)。当代入三个变量,通过检验选择的葡萄等级分数,外观分析,香气分析,我们得出了方程(5-3)。当代入四个变量,在前三个变量的基础上我们增加了口感分析,得出了方程(5-4)。之后又增加了平衡整体评价指标,得出了方程(5-5). 给定显著性水平为0.05查得临界值t0.025(20)=2.0860;t0.025(30)=2.0423,而我们五个模型的自由度分别为25,24,23,22,21。其临界值介于2.0860和2.0423之间,而我们的模型中各参数的t 值的绝对值均大于临界值,各变量均通过t 检验,说明每次回归增加的解释变量为重要的影响变量。

综合上述所有的检验以及对方程拟合度的考察,我们认为,方程(5-5)才是最优方程,对葡萄酒的评分标准有重要影响的解释变量为葡萄质量的等级分数,外观分析,香气分析,口感分析,平衡整体评价指标。 回归结果

通过SPSS 的回归,我们得出的五个方程的系数以及其标准差等都在表中有体现。由于在上面我们已经分析过,方程(5-5)是最优方程。所以我们得到了下面的葡萄酒的综合评分模型,其表达式如下:

Y =-20.151+0.471X

1

+0.826X

2

+1.014X

3

+0.728X

4

+0.695X

5

R

2

=897

这个是我们最终得出的模型。其中,y 代表葡萄酒的综合分数,X 1代表葡萄等级分数,X 2代表外观分析指标,X 3代表香气分析指标,X 4代表口感分析指标,X 5代表平衡总体评价指标。

结果分析

通过模型,我们得出结论:葡萄酒的质量受酿酒葡萄与葡萄酒理化指标的影响,而且影响还是很大的。葡萄酒的质量既受酿酒葡萄质量差异额影响,又受自身香气,口感等方面的影响

六.模型的评价和改进

6.1优点

(1) 主成分分析利用降维技术用少数几个综合变量来代替原始多个酿酒葡萄的理化指标变量,这些综合变量集中了原始变量的大部分信息。

(2)利用逐步回归可以进一步去掉影响较小的变量,减少变量的个数。 (3)典型相关是研究两组变量之间相关性的一种统计分析方法。与主成分分析一样,它也是一种降维技术。多重相关是典型相关的一个特例,简单相关是多重相关的一个特例。 6.2缺点

(1)求得的主成分的因子负荷的符号有正有负,综合评价函数意义就不明确,命名清晰性低。

(2)变量间可能存在高度依赖性即交互作用会给回归系数的估计带来不合理的解释,变量的一次性引入方程导致计算量增大,计算效率低精算精度不够等问题。

(3)建模的过程中,没有考虑二级理化指标。 6.3 模型的改进

(1)把二级指标的数据考虑在内。

(2)在做主成分分析时与因子分析和聚类分析联合使用。

七 模型的推广

本文建立的模型都具有普遍适用性,可以推广到任意某种食物中的营养成分与其本身质量或加工品的评价的研究,我们可以通过对一个问题的解答而将其运用到更多的现实生活中的案例,这就很好的体现了数学建模的意义所在。

参考文献

[1]曾祥明,任佳慧. 使用SPSS 软件对多项选择题做卡方检验的方法[J].市场研究,2005(10):1-2.

[2]汤兆星. 新疆葡萄加工品质评价和基础数据库建立[D].北京:中国农业科学院,2010. 36-40. [3]byfygxf,逐步回归分析,,2012-09-08. [4]xing_wei_liang, SPSS18.0教程中文完整版, http://wenku.baidu.com/view/989c1fbb1a37f111f1855bf7.html,2012-09-07. [5] 胡玉林 .控制系统的数学模型[M].机械工业出版社,2010.

[6] 卓金武 .Matlab在数学建模中的应用[M].北京航空航天大学出版社,2010.. [7] 姜启源 .数学模型[M].高等教育出版社,2004.

[8] 周一场 .数学模型试验[M].西安交通大学出版社,1999.

[9] 吴孟达,成礼智. 数学模型的理论与实践[M].国防科技大学出版社,1999.

附录

第二问Matlab 程序 clc,clear

rsj='red grape.xls'; wsj='white grape.xls'; rxs='red xishu.xls'; wxs='white xishu.xls'; grade='grade.xls' ; g=xlsread(grade); p=xlsread(rsj); q=xlsread(wsj); a=xlsread(rxs); b=xlsread(wxs); g1=g(1:27,1); g2=g(:,2); r=p*a; w=q*b;

stepwise(r,g1); stepwise(w,g2);

t1=71.6296-0.227541*r(:,1)+0.686865*r(:,2)-0.7467*r(:,4)-0.773192*r(:,5);

t2=76.5321+0.260385*w(:,1)-0.309262*w(:,3)

第三题白葡萄的主成分与白葡萄酒理化指标的典型相关Spss 分析

Run MATRIX procedure:

Correlations for Set-1

Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y1 1.0000 -.0002 .0006 -.0002 .0002 -.0008 -.0013 -.0006 .0003 Y2 -.0002 1.0000 -.0003 -.0001 -.0003 -.0008 -.0004 -.0002 -.0007 Y3 .0006 -.0003 1.0000 .0002 -.0003 .0000 -.0007 .0008 -.0002 Y4 -.0002 -.0001 .0002 1.0000 -.0001 -.0005 .0004 -.0004 .0007 Y5 .0002 -.0003 -.0003 -.0001 1.0000 .0000 -.0001 -.0002 .0002 Y6 -.0008 -.0008 .0000 -.0005 .0000 1.0000 .0003 .0004 .0000 Y7 -.0013 -.0004 -.0007 .0004 -.0001 .0003 1.0000 -.0001 .0000 Y8 -.0006 -.0002 .0008 -.0004 -.0002 .0004 -.0001 1.0000 -.0004 Y9 .0003 -.0007 -.0002 .0007 .0002 .0000 .0000 -.0004 1.0000

Correlations for Set-2

P1 P2 P3 P4 P5 P6 P7 P8 P1 1.0000 .8782 .4234 -.1620 .7284 -.1356 .1560 .1120 P2 .8782 1.0000 .5638 -.1380 .7074 -.1879 .1885 .1425 P3 .4234 .5638 1.0000 -.0311 .3377 .0093 .3678 -.0962 P4 -.1620 -.1380 -.0311 1.0000 -.1386 .1417 -.2680 .0170 P5 .7284 .7074 .3377 -.1386 1.0000 -.0201 .1114 .0349 P6 -.1356 -.1879 .0093 .1417 -.0201 1.0000 .3665 -.9081 P7 .1560 .1885 .3678 -.2680 .1114 .3665 1.0000 -.6686 P8 .1120 .1425 -.0962 .0170 .0349 -.9081 -.6686 1.0000

Correlations Between Set-1 and Set-2

P1 P2 P3 P4 P5 P6 P7 P8 Y1 .3711 .4049 .1831 -.1786 .2555 -.6282 -.3001 .6321 Y2 .3153 .4114 .5261 -.0781 .3191 .3481 .5079 -.4264 Y3 .4360 .4522 .5393 -.0807 .1027 -.1674 .2161 .0902 Y4 .0674 .0312 -.1118 -.1041 -.1805 .0145 .1192 -.1547 Y5 -.1283 -.1709 .2663 -.1796 .0377 .0886 -.0613 -.0584 Y6 .3201 .3054 -.1162 -.0262 .4695 -.0683 -.1801 .1073 Y7 .2344 .0970 .0693 -.0428 .0347 -.0473 -.0846 .1221 Y8 .1576 .1337 -.1101 -.3166 .0642 .2629 .0954 -.1977 Y9 -.0078 .0330 -.0485 .1537 .1241 .0728 -.0143 -.0227

Canonical Correlations 1 .921 2 .846 3 .775 4 .678 5 .591 6 .534 7 .299 8 .045

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .004 99.775 72.000 .017 2 .026 65.799 56.000 .174 3 .091 43.121 42.000 .423 4 .228 26.585 30.000 .645 5 .423 15.498 20.000 .747

6 .650 7.753 12.000 .804 7 .909 1.717 6.000 .944 8 .998 .036 2.000 .982

Standardized Canonical Coefficients for Set-1

1 2 3 4 5 6 7 8 Y1 -.498 -.650 -.032 .115 -.018 -.040 -.427 -.149 Y2 -.365 .605 .152 .353 -.370 .017 -.062 -.375 Y3 -.716 .107 .060 -.202 -.080 .125 .122 .476 Y4 .017 .020 .511 -.556 -.194 -.496 .055 .115 Y5 -.083 .151 -.661 .118 -.027 -.677 .007 .229 Y6 .061 -.344 .355 .569 -.284 -.342 .369 .052 Y7 -.281 -.062 -.042 -.010 .495 .008 .719 -.245 Y8 -.048 .233 .382 .295 .696 -.245 -.363 .175 Y9 .124 .007 .031 .297 -.091 .320 .101 .672

Raw Canonical Coefficients for Set-1

1 2 3 4 5 6 7 8 Y1 -.085 -.112 -.005 .020 -.003 -.007 -.073 -.026 Y2 -.074 .123 .031 .072 -.075 .003 -.013 -.076 Y3 -.199 .030 .017 -.056 -.022 .035 .034 .133 Y4 .008 .010 .253 -.275 -.096 -.245 .027 .057 Y5 -.044 .080 -.351 .063 -.014 -.359 .004 .121 Y6 .039 -.221 .229 .366 -.183 -.220 .237 .033 Y7 -.200 -.044 -.030 -.007 .353 .006 .512 -.175 Y8 -.038 .185 .303 .234 .552 -.194 -.288 .139 Y9 .113 .006 .028 .271 -.083 .293 .092 .614

Standardized Canonical Coefficients for Set-2

1 2 3 4 5 6 7 8 P1 -.691 -.146 .107 -.733 .681 -.497 1.717 -.573 P2 .020 .050 1.364 .389 -.397 .453 -1.524 1.162 P3 -.634 .299 -.962 -.141 -.296 -.373 .138 .254 P4 .198 -.082 .082 -.165 -.573 .679 .576 .160 P5 .463 -.225 -.497 1.024 -.658 -.132 .106 -.558 P6 -.453 1.044 -.666 1.603 2.852 1.963 -.218 .231 P7 -.258 .553 -.190 .383 .909 1.823 -.251 -1.095 P8 -.854 .465 -1.226 1.660 3.293 3.137 -.490 -.511

Raw Canonical Coefficients for Set-2

1 2 3 4 5 6 7 8 P1 -.691 -.146 .107 -.733 .681 -.497 1.717 -.573 P2 .020 .050 1.364 .389 -.397 .453 -1.524 1.162 P3 -.634 .299 -.962 -.141 -.296 -.373 .138 .254 P4 .198 -.082 .082 -.165 -.573 .679 .576 .160 P5 .463 -.225 -.497 1.024 -.658 -.132 .106 -.558 P6 -.453 1.044 -.666 1.603 2.852 1.963 -.218 .231 P7 -.258 .553 -.190 .383 .909 1.823 -.251 -1.095 P8 -.854 .465 -1.226 1.660 3.293 3.137 -.490 -.511

Canonical Loadings for Set-1

1 2 3 4 5 6 7 8 Y1 -.498 -.650 -.033 .115 -.019 -.040 -.428 -.148 Y2 -.364 .606 .152 .353 -.370 .017 -.063 -.375 Y3 -.716 .107 .060 -.202 -.080 .125 .121 .476 Y4 .017 .020 .511 -.556 -.194 -.495 .055 .115 Y5 -.083 .150 -.661 .118 -.027 -.677 .007 .229 Y6 .061 -.344 .355 .569 -.283 -.342 .369 .052 Y7 -.279 -.062 -.042 -.010 .495 .008 .720 -.245 Y8 -.048 .233 .382 .295 .696 -.245 -.363 .176 Y9 .124 .006 .031 .296 -.091 .320 .101 .672

Cross Loadings for Set-1

1 2 3 4 5 6 7 8 Y1 -.459 -.550 -.025 .078 -.011 -.021 -.128 -.007 Y2 -.336 .513 .118 .239 -.219 .009 -.019 -.017 Y3 -.659 .091 .047 -.137 -.047 .067 .036 .021 Y4 .016 .017 .396 -.377 -.115 -.264 .016 .005 Y5 -.076 .127 -.512 .080 -.016 -.361 .002 .010 Y6 .057 -.291 .275 .386 -.168 -.182 .110 .002 Y7 -.257 -.052 -.032 -.007 .293 .004 .215 -.011 Y8 -.044 .198 .296 .200 .411 -.131 -.108 .008 Y9 .115 .005 .024 .201 -.054 .171 .030 .030

Canonical Loadings for Set-2

1 2 3 4 5 6 7 8 P1 -.711 -.129 .445 .350 -.055 -.094 .356 -.136 P2 -.729 -.083 .467 .420 -.247 .041 -.019 .063 P3 -.782 .360 -.277 .115 -.392 -.007 -.024 .122 P4 .253 -.036 -.089 -.084 -.312 .570 .517 .480 P5 -.317 -.127 .159 .809 -.304 -.121 .205 -.234

P6 .330 .831 .119 .217 .107 -.141 .269 .190 P7 -.192 .718 .228 -.074 -.244 .118 -.115 -.550 P8 -.263 -.900 -.211 -.032 .110 .188 -.149 .071

Cross Loadings for Set-2

1 2 3 4 5 6 7 8 P1 -.655 -.109 .345 .237 -.033 -.050 .106 -.006 P2 -.672 -.070 .362 .285 -.146 .022 -.006 .003 P3 -.720 .305 -.214 .078 -.232 -.004 -.007 .005 P4 .233 -.030 -.069 -.057 -.184 .304 .154 .021 P5 -.292 -.107 .123 .549 -.180 -.064 .061 -.010 P6 .304 .703 .092 .147 .063 -.075 .080 .008 P7 -.177 .608 .177 -.050 -.144 .063 -.034 -.025 P8 -.243 -.762 -.163 -.022 .065 .100 -.044 .003

Redundancy Analysis:

Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .111 CV1-2 .111 CV1-3 .111 CV1-4 .111 CV1-5 .111 CV1-6 .111 CV1-7 .111 CV1-8 .111

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .094 CV2-2 .080 CV2-3 .067 CV2-4 .051 CV2-5 .039 CV2-6 .032 CV2-7 .010 CV2-8 .000

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .253 CV2-2 .273 CV2-3 .080 CV2-4 .128 CV2-5 .061 CV2-6 .052 CV2-7 .068 CV2-8 .083

Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .215 CV1-2 .196 CV1-3 .048 CV1-4 .059 CV1-5 .021 CV1-6 .015 CV1-7 .006 CV1-8 .000

------ END MATRIX ----- 附表1 红葡萄的标准化处理

承 诺 书

我们仔细阅读了中国大学生数学建模竞赛的竞赛规则.

我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。

我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。

我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。

我们授权全国大学生数学建模竞赛组委会,可将我们的论文以任何形式进行公开展示(包括进行网上公示,在书籍、期刊和其他媒体进行正式或非正式发表等)。

我们参赛选择的题号是(从A/B/C/D中选择一项填写): 我们的参赛报名号为(如果赛区设置报名号的话): 所属学校(请填写完整的全名): 参赛队员 (打印并签名) :1. 指导教师或指导教师组负责人 (打印并签名) :

日期: 年 月 日

编 号 专 用 页

赛区评阅编号(由赛区组委会评阅前进行编号):

全国统一编号(由赛区组委会送交全国前编号):

全国评阅编号(由全国组委会评阅前进行编号):

葡萄酒的评价

摘要:本文建立了酿酒葡萄和葡萄酒的评价模型。针对第一个问题,结合品酒

员的打分情况,进行加权平均处理,用SPSS 软件进行卡方检验。可以得出两组对红葡萄的评价数据渐进显著性为1,即评价没有显著性差异;两个组对白葡萄酒的评价结果的相关性为0.176,双侧显著性为0.371,说明对白葡萄酒的评价存在显著性差异,结合平均值和标准差来考虑,则第二组的评价结果更可信。 对于第二问,我们对附表二中多次测量的一级指标取平均值,对酿酒红葡萄和白葡萄分别选取30个和29个一级指标的数据进行标准化处理,处理依据:

Z ij =

X ij -X

j

σ

, i =1, 2, , n ; j =1, 2, , p 得到标准化矩阵Z ,然后分别对这两个

j

标准化矩阵进行主成分分析,根据特征值大于1的原则,对酿酒红葡萄提取了7个主成分,它们的累积方差贡献率为84.92%对酿酒白葡萄提取了9个主成分,它们的累积方差贡献率为81.24%。酿酒红葡萄的主成分表达式为:

⎧Y 1=0. 105X 1+0. 237X 2+⋯-0. 693X 30⎪

⎪Y 2=0. 206X 1+0. 640X 2+⋯-0. 087X 30

,再根据表达式分别求出酿酒红葡萄7个⎨

⋯⋯⎪

⎪Y 7=0. 335X 1+0. 109X 2+⋯-0. 102X 30⎩

主成分数据,与第二组对葡萄酒的评分用Matlab 进行逐步回归分析,去掉一些影响较小的主成分,建立回归方程,代入数据求得评分,最后根据分级标准对酿

在第三问要研究两组随机变量间(Y 1, Y 2, , Y p ) 和(P 1, P 2, , P q ) 的相关关系,我们建立了典型相关分析模型,用SPSS 软件求解得到的红葡萄的典型相关模型。

U 1=0. 018Y 1-0. 847Y 2+0. 011Y 3+0. 380Y 4+0. 139Y 5+0. 337Y 6+0. 067Y 7

V 1=1. 057P 1-0. 491P 2-0. 150P 3-0. 356P 4-0. 293P 5+0. 065P 6+0. 787P 7+0. 192P 8+0. 395P 9

第四问根据第二问确定的葡萄的质量等级指标,结合附件一以及第二组评价

的可靠性,根据Spss 软件分析各指标显著相关性,以红葡萄酒的综合评分为因变量,适当选取葡萄质量等级,口感分析等指标,运用Spss 软件对数据进行回归分析建立模型分析得得到了下面的葡萄酒的综合评分模型,其表达式如下:

Y =-20.151+0.471X

1

+0.826X

2

+1.014X

3

+0.728X

4

+0.695X

5

R

2

=897

得出酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有较大影响的结论。 关键词:卡方检验 主成分分析 逐步回归 典型相关分析 Spss Matlab

二.问题重述

确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件1给出了某一年分一些葡萄酒的评价结果,附件2和附件3分别给出了该年分这些葡萄酒的和酿酒葡萄的成分数据。请尝试建立数学模型讨论下列问题: 1. 分析附件1中两组评酒员的评价结果有无显著性差异,哪一组结果更可信? 2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。 3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。

4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?

三.问题分析

第一问:结合品酒员的打分情况,进行加权平均处理,每位品酒员的权重都

设1/10,最后得出不同类别不同样品酒的总得分情况, 将两组红葡萄酒的评价结果输入到SPSS 软件,通过显著性检验中的卡方检验

第二问:对于葡萄酒的质量,我们选取第二组的评价结果,取10个评酒员的平均数据;理化指标我们只考虑一级指标,对于多次测量的取平均值,由于不同指标数据的量纲不同,由于指标分类太多,为了简化先用Spss 软件对所有指标数据进行标准化处理,我们先对多个指标进行主成分分析,选出累积影响达到85%以上的成分,再进行聚类分析,从而可以把不同的酿酒葡萄按照不同的指标划分为不同的类别。

第三问:由于酿酒葡萄的理化指标和葡萄酒的理化指标数目不一样,在一元统计分析中,用相关系数来衡量两个随机变量之间的线性相关关系。然而这些统计方法在研究两组变量之间的相关关系时却无能为力。我们用典型相关分析就可以识别并量化两组变量之间的联系,将两组变量相关关系的分析,转化为一组变量的线性组合与另一组变量线性组合之间的相关关系分析。

第四问:根据第二问确定的葡萄的质量等级指标,结合附件一以及第二组评价的可靠信,根据Spss 软件分析各指标显著相关性,以红葡萄酒的综合评分为因变量,适当选取葡萄质量等级,口感分析等指标,运用Spss 软件对数据进行回归分析建立模型分析得出酿酒葡萄和葡萄酒的理化指标对葡萄酒的质量有较大的影响。

四.模型的假设和符号说明

4.1 模型的假设

1. 假设葡萄酒样品都是同一时间段酿造以及取出的; 2. 假设各位品酒员都是客观公正的;

3. 假设酿酒葡萄只含有监测到的化学成分,而无其他化学成分; 4. 假设数据录入是完全准确的;

5假设葡萄酒样品的评价是在常温下进行的;

6假设酿酒葡萄在常温下短时间内不会产生化学反应;

五.模型建立及求解

5.1问题1.

分析附件1中两组评酒员的评价结果有无显著差异,并确定哪组结果更可信。在本部分中,我们将按照如下步骤进行建模,即数据处理、模型构建,模型结果及分析。

(1)附件1的数据处理

由于前面假设部分对品酒员都作出了客观公正的假设,因此本次对数据进行处理按照如下的方式进行,即根据不同的酒类品种及样品酒的不同,结合品酒员的打分情况,进行加权平均处理,每位品酒员的权重都设1/10,最后得出不同类别不同样品酒的总得分情况,如下表1所示。

表1 葡萄酒类别及其得分情况

(2)附件1的模型构建

在构建数学模型之前,我们先通过散点图直观的了解两组品酒人员对不同类别的样品酒的评价情况,分别如下图1及图2情况。

1

2

3

4

5

6

7

8

9

10

11

12

[***********][***********]7

图1 两组红葡萄样品酒相关性散点图

98765431

2

3

4

5

[***********][1**********]2

图2 两组白葡萄酒样品酒相关性散点图

[1**********]8

注:红线代表第一组品酒人员对不同样品酒的评价情况;黄线代表第二组品酒人员对不同样品酒的评价情况;蓝线代表第一组品酒人员对不同样品酒的评价情况;海绿线代表第二组品酒人员对不同样品酒的评价情况。

由图1及图2 ,我们能够比较直观的得出,两组品酒人员对红葡萄酒的评价情况有很强的相关性,并且这种相关性体现在线性相关,对于图2中的情况,我们直观得出两组数据之间的相关性不明显或者说线性相关性不够明显。因此,对于红葡萄酒的相关性情况,我们将通过SPSS 软件[4]进行线性建模,对于白葡萄酒的情况我们将通过clementine 软件进行数学建模,具体情况如下。

将两组红葡萄酒的评价结果输入到SPSS 软件,通过显著性检验中的卡方检验[1],分析得出结果如下:

制下显著相关,并通过线性回归分析得出相关系数为1.219。由此说明这两组的品酒人员对红葡萄酒的评价是显著相关的,并对单个样本进行t 检验,得出均值、标准差以及均值的 如下表所示:

值以及标准差来看,第二组对红葡萄酒的评价更加客观准确。

将两组白葡萄酒的评价结果输入到clememtine 软件,通过双变量相关性检验,得出结果如下:

,双侧显著性为0.371,这两个数据说明该两组白葡萄酒的样品的显著相关性不够明显,也由此说明两组数据之间不存在显著相关性。

均值以及标准差来看,第二组对白葡萄酒的评价更加客观准确。 5.2问题二

针对所研究的问题,根据指标选择的针对性、可操作性、全面性等原则,选取了附表二的31项一级指标进行主成分分析[2]。 5.2.1将原始指标的数据标准化

采集27维随机向量X =(X 1, X 2, , X p ) T ,从题目附表二中可以看出,氨基酸基本上等于各个指标的相加,说明氨基酸的作用可由其二级指标的各个数据所代替,可以由二级指标取代氨基酸的作用。由此也可以类推出其它所有二级指标都可以用其对应的一级指标来表示,一级指标一共有30个,30个样品对样本阵元进行如下标X i =(X i 1, X i 2, X ip ) ,i =1, 2, , 30(n >p ) 构造样本阵,准化变换:

Z ij =

X ij -X

j

T

σ

, i =1, 2, , n ; j =1, 2, , p

j

(1-1)

n

n

其中X j =

i =1

X ij n

, σ

2j

∑(X

=

i =1

ij

-X j ) n

2

, 得到标准化阵Z 。见附表1。

5.2.2 对标准化阵Z 求相关系数矩阵

R =[r ij ]p ⨯p =

Z Z n

T

(1-2)

其中r ij =

∑z

ki

⋅z kj

n

, i , j =1, 2, , p 。系数矩阵见附表2.

5.2.3 解相关系数阵R 的特征方程R -λI p =0得p 个特征根,确定主成分

m

∑λ

对于特征根λ1≥λ2≥ ≥λp >0,按

j =1p

j

≥0. 85

j

确定m 值,使信息的利用

∑λ

j =1

率达85%以上,对每个λj , j =1, 2, , m , 解方程组Ra =λj a , 求得单位正交特征向

量,

⎛a 11⎫⎛a 12⎫⎛a 1p ⎫ ⎪ ⎪ ⎪ a 21⎪ a 22⎪ a 2p ⎪a 1= , a = , , a =2p ⎪ ⎪ ⎪

⎪ ⎪ ⎪ a ⎪ a ⎪ a ⎪⎝p 1⎭⎝p 2⎭⎝pp ⎭

用Spss 对标准化后的数据进行主成分分析得主成分特征根及贡献率和累积贡献

率 。

表6:红葡萄解释的总方差

根据特征值大于1的原则,提取了7个公共因子(主成分),它们的累积方差贡献率为84.919%,说明这7个公因子(主成分)提取了原始指标数据84.919%的信息。

表7:白葡萄解释的总方差

根据特征值大于1的原则,提取了9个公共因子(主成分),它们的累积方差贡献率为81.236%,说明这8个公因子(主成分)提取了原始指标数据81.236%的信息。

5.2.4 将标准化后的指标变量转换为主成分

Y i =a 1i X 1+a 2i X 2+ +a pi X p ,i =1, 2, , p

Y 1称为第一个主成分,Y 2称为第二个主成分, , Y m 称为第m 个主成分。Spss 分

析的结果为

表8:红葡萄的成分矩阵

于是,可以建立主成分表达式:

⎧Y 1=0. 105X 1+0. 237X 2+⋯-0. 693X 30⎪

⎪Y 2=0. 206X 1+0. 640X 2+⋯-0. 087X 30

⋯⋯⎪

⎪Y 7=0. 335X 1+0. 109X 2+⋯-0. 102X 30⎩

表9:白葡萄的成分矩阵

于是,可以建立白葡萄的主成分表达式:

⎧Y 1=0. 587X 1+0. 220X 2+⋯+0. 648X 29⎪

⎪Y 2=0. 109X 1+0. 640X 2+⋯+0. 159X 29

⋯⋯⎪

⎪Y 9=-0. 105X 1-0. 04X 2+⋯-0. 201X 29⎩

5.2.5 对m 个主成分进行综合评价

对m 个主成分进行加权求和,即得最终评价值,权数为每个主成分的方差贡献率。总因子得分估计值为

^

8

Z =

∑ωY ,(i =1, 2, ⋯31)

i i

i =1

其中ωi =λi 是第i 个公共因子f i 的方差贡献率。

由Matlab 编程算得影响红葡萄的七个因素与27组样品的关系

表10:影响红葡萄的7个主成分因素对应的27组样品的数据

为了求得各个主成分因素对葡萄酒质量的影响,由表10和表11我们已经知道各个酿酒葡萄样品的各个主成分因素的值,第一问知道第二组的评酒员评的结果合理,因此我们用第二组评酒员的评分作为因变量,各个主成分作为因变量建立多元回归,由于某些变量对结果的影响程度较小,可以剔除,为此我们建立了逐步回归模型。

逐步回归是实现变量选择的另一种方法,基本思路为,先确定一个初始子集,然后每次从子集外影响显著的变量中引入一个对y 影响最大的,在对原来子集中的变量进行检验,在不显著的变量中剔除一个影响最小的,直到不能引入和剔除为止。

由第一问分析得第二组的分析合理,所以选用第二组对红葡萄酒和白葡萄酒的综合评分作为被影响因素,Y i (i =1, 2, ⋯, 7)(红葡萄) ,Y j (j =1, 2, ⋯, 9)(白葡萄) 作为影响评分的因素进行逐步回归分析

我们运用Matlab 对红葡萄进行逐步回归,得到如下图形:

Coefficients with Error Bars

X X X X

X X

X

Coeff. t-stat p-val

Coefficients with Error Bars

Coeff. t-stat p-val

Model History

Model History

R M S E

R M S E

图3:Matlab 逐步回归界面

逐步回归交互式画面中红线条表示移去的指标,结果为

T =71. 6296-0. 227541Y 1+0. 686865Y 2-0. 7467Y 4-0. 773192Y 5

对白葡萄进行逐步回归分析, 用Matlab 做得结果如下:

X X X X X X X X Coeff. t-stat p-valCoefficients with Error Bars

Coeff. t-stat p-valR M S E

R M S E

图4:Matlab 逐步回归界面

求得模型的结果为

T =76. 5321+0. 260385Y 1-0. 309262Y 3

根据公式求得红葡萄酒样品的得分为

得分的情况直接评出酿酒葡萄的质量,对其进行分级。

我们选用的等级指标为

5.3 问题三

在本问题中遇到要研究两组随机变量(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 间的相关关系。(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 是完全不同的,但是它们的线性函数可能存在密切的关系,这种密切的关系能反映(x 1, x 2, , x p ) 和(y 1, y 2, , y q ) 之间的相关关系。因此就要找出(x 1, x 2, , x p ) 的一个线性组合u 及(y 1, y 2, , y q ) 的一个线性组合v ,希望找到的u 和v 之间有最大可能的相关系数,以充分反映两组变量间的关系。这样就把研究两组随机变量间相关关系的问题转化为研究两个随机变量间的相关关系。如果一对变量(u ,v )还不能完全刻划两组变量间的相关关系时,可以继续找第二对变量,希望这对变量在与第一对变量(u ,v )不相关的情况下也具有尽可能大的相关系数。直到进行到找不到相关变量对时为止

首先分别在每组变量中找出第一对线性组合,使其具有最大相关性,

⎧u 1=a 11x 1+a 21x 2+⋯+a p 1x p

⎩v 1=b 11y 1+b 21y 2+⋯+b q 1y q

然后再在每组变量中找出第二对线性组合,使其分别与本组内的第一线性组合不相关,第二对本身具有次大的相关性。

⎧u 2=a 12x 1+a 22x 2+⋯+a p 2x p

v =b y +b y +⋯+b y 121222q 2q ⎩1

u 2与u 1, v 2与v 1不相关,但关性被提取完为止。

u 2和v 2相关。如此继续下去,

直至进行到

r 步,两组变量的相

可以得到r 组变量,这里r ≦min(p , q ).

为研究酿酒葡萄与葡萄酒理化指标之间的关系,用Spss 进行典型相关分析,我们用第二问求得的主成分作为变量进行分析,其中红葡萄的7个主成分表示为:Y1,Y2,Y3,Y4,Y5,Y6,Y7; 取红葡萄酒理化指标中的一级指标,多次测量的求平均值,在对数据进行标准化处理,处理结果见附表

分析结果如下:

1.给出典型相关系数

Canonical Correlations

1 .971 2 .956 3 .899 4 .764 5 .456 6 .430 7 .354

第一典型相关系数为0.971,第二典型相关系数为0.956,第三典型相关系数为0.899

2.给出典型相关的显著性检验

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .000 147.234 63.000 .000 2 .004 96.894 48.000 .000 3 .045 54.155 35.000 .020 4 .235 25.316 24.000 .389 5 .565 10.004 15.000 .819 6 .713 5.918 8.000 .656 7 .875 2.341 3.000 .505

从左至右分别为Wilks 的 统计量、卡方统计量、自由度和伴随概率。从表中可以看出,在0.05的显著性水平下,3对典型变量中有第一对,第二对和第三对一共3对典型变量是显著相关的,其余四对相关性均不显著。 3. 给出两组典型变量的标准化系数

Standardized Canonical Coefficients for Set-1

1 2 3 4 5 6 7 Y1 .018 .372 -.249 -.306 .288 -.490 .618 Y2 -.847 .402 .069 -.031 .218 .223 -.131 Y3 .011 .275 -.682 .547 -.305 .216 .144 Y4 .380 .759 .443 .179 -.102 -.054 -.197

Y5 .139 -.120 .053 .560 .806 .024 .010 Y6 .337 .159 -.218 -.477 .290 .708 -.002 Y7 .067 .091 -.471 -.183 .180 -.396 -.736

来自红葡萄理化指标的主成分指标的第一典型变量U 1为

U 1=0. 018Y 1-0. 847Y 2+0. 011Y 3+0. 380Y 4+0. 139Y 5+0. 337Y 6+0. 067Y 7

第二典型变量U 2为

U 2=0. 372Y 1+0. 402Y 2+0. 275Y 3+0. 759Y 4-0. 120Y 5+0. 159Y 6+0. 091Y 7

第三组典型变量U 3 为

U 3=-0. 249Y 1+0. 069Y 2-0. 682Y 3+0. 443Y 4+0. 053Y 5-0. 218Y 6-0. 471Y 7

Standardized Canonical Coefficients for Set-2

1 2 3 4 5 6 7 P1 1.057 1.766 -.121 .927 -2.260 -.575 1.218 P2 -.491 -.193 -1.996 -.595 .357 -1.463 -.899 P3 -.150 -.230 1.537 .035 1.447 2.821 2.661 P4 -.356 .283 .070 -.753 -1.152 -.969 -.235 P5 -.293 -.052 -.255 .378 -.671 -.053 -1.263 P6 .065 -.560 .516 1.285 -.330 -.600 .733 P7 .787 .324 -.066 1.222 -1.820 -.641 2.575 P8 .192 -.030 .218 -.582 -.804 -.062 1.282 P9 .395 .543 -.781 .386 -.825 .326 .635

来自白葡萄酒理化指标的第一典型变量V 1为

V 1=1. 057P 1-0. 491P 2-0. 150P 3-0. 356P 4-0. 293P 5+0. 065P 6+0. 787P 7+0. 192P 8+0. 395P 9

第二典型变量V 2为

V 2=1. 766P 1-0. 193P 2-0. 230P 3+0. 283P 4-0. 052P 5-0. 560P 6+0. 324P 7-0. 030P 8+0. 543P 9

第三组典型变量V 3为

V 3=-0. 121P 1-1. 966P 2+1. 537P 3+0. 070P 4-0. 255P 5+0. 516P 6-0. 066P 7+0. 218P 8-0. 781P 9

6. 给出两组变量的冗余分析

Redundancy Analysis:

Proportion of Variance of Set-1 Explained by Its Own Can. Var.

Prop Var CV1-1 .143 CV1-2 .143 CV1-3 .143 CV1-4 .143 CV1-5 .143 CV1-6 .143 CV1-7 .143

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .135 CV2-2 .130 CV2-3 .115 CV2-4 .083 CV2-5 .030 CV2-6 .026 CV2-7 .018

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .462 CV2-2 .191 CV2-3 .066 CV2-4 .074 CV2-5 .066 CV2-6 .064 CV2-7 .030

Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .436 CV1-2 .174 CV1-3 .053 CV1-4 .043 CV1-5 .014 CV1-6 .012 CV1-7 .004

在进行典型相关分析时,我们也想了解每组变量提取出的典型变量所能解释的样本总方差的比例,从而定量测度典型变量所包含的原始信息量的大小,这就是典型变量的冗余分析。

表中的数据表明,提2取3前3对典型变量可以代表原始变量的大部分信息

于是得到本题的模型为

表18:红葡萄典型相关模型

由第一组典型相关方程可知,影响红葡萄质量方面的主要因素是Y 2, Y 4, Y 6(典型载荷分别为-0.847,0.380,0.337) ;红葡萄酒的第一典型变量V 1与P 1呈高度相关,说明单宁的含量对红葡萄酒的质量占有主要地位;根据第二组典型相关方程,

Y 4是红葡萄方面的主要因素,P 1(单宁)是反映红葡萄酒品质的重要指标;根据

第三组典型相关方程,红葡萄中Y 3和Y 7影响显著,P 4(总酚)对葡萄酒影响作用较大。

同理可求得白葡萄与白葡萄酒的典型相关模型(详细数据见附录:)

表19:白葡萄典型相关模型

其中U 1与V 1的关联度为0.921,U 2与V 21的关联度为0.846

5.4第四问

根据前面第一问知第二组品酒员可信度高,为了研究酿酒葡萄和葡萄酒理化指标对葡萄酒质量的影响因素,我们选取了第二组对红葡萄酒做的评分作为数据源。通过对附件中各种数据的分析,葡萄酒理化指标分析有外观分析、口感分析、香气分析、平衡整体评价以及各品酒员对酒进行的综合打分,以及第二问中所判断出的各种酿酒葡萄的等级分数,最终得出来如下表的综合数据

调用第二问中的表达式,从上表看出总共有五个因素影响葡萄酒最终的质量评定,但我们知道肯定还有其他因素存在,其他因素都认为是随机因素。 模型的建立

通过上述的论述,我们以酒的最终评分为因变量,以外观分析、口感分析、香气分析、平衡整体评价及葡萄的等级分数为自变量,建立多元线性回归模型如下:

这个模型是一个一般形式,其中x i 代表各个影响因素,而y 则代表着葡萄酒的评分, j 代表除解释变量以外其它对酒的评分有影响的因素的综合体。

从表中的数据我们可以看出,葡萄酒的得分与其它各因素相关系数都很大,说明其他因素和葡萄酒得分之间均在0.01的显著性水平上表现较强的相关性。另外从相关系数上可看出,各指标因素与葡萄酒的得分也有较高的相关系数。从此我们可以逐步引入葡萄等级分数指标、外观指标、口感指标、香气指标、平衡整体指标建立五个模型,其拟合优度检验数据如表所示。

d. 预测变量: (常量), 葡萄等级分数, 外观分析, 香气分析, 口感分析。

e. 预测变量: (常量), 葡萄等级分数, 外观分析, 香气分析, 口感分析, 平衡/整体评价。

求最优的回归方程是我们建立模型的基本出发点,而要达到这个目标的最佳方法就是逐步回归法。逐步回归法作为一种在线性回归分析和计算技术想结合的基础上派生出来的统计分析方法,能够从大量的可供选择的自变量中,按照一定的优良性要求建立回归模型,实现回归因子的挑选。下面我们来看看表4的方差分析。

表23:方差分析

在模型1中,按第一自由度为1,第二自由度为25,在给定显著性水平为0.05的情况下查得临界值为 F0.05(1,25)=4.24,而给出的F 值83.891>4.24,模型通过了F 检验,葡萄等级对葡萄酒的质量的影响是显著的,而且从Sig=0.000也可以检验出葡萄等级对葡萄酒的质量有很强的影响。在模型2中,我们按第一自由度为2,第二自由度为24,在给定显著性水平为0.05的情况下查得临界值

为F 0.05(2,24)=3.40,而给出的F 值43.204>3.40,而且Sig=0.000,于是我们得出葡萄等级和外观分析对葡萄酒的质量有较大的影响。模型3中,按第一自由度为3,第二自由度为23,在给定显著性水平为0.05的情况下查得临界值为F 0.05(3,23)=3.03,而给出的F 值46.405>3.03,Sig=0.000,所以我们得到的结论是模型通过了F 检验. 相应地,在模型4中,我们查得临界值F 0.05(4,22)=2.82,而给出的F 值47.910>2.82,模型通过F 检验,在模型5中,我们查得临界值F 0.05(5,21)=2.68,给出的F 值36.749>2.68,同时Sig=0.000,通过F 检验。因此,这五个解释变量对葡萄酒综合评价有较强的解释力度。 另外,我们还要对五个模型的参数进行估计和对各变量进行检验,通过SPSS 软件中的regression ,我们得出了五个回归模型的参数及相应的t 值,如表5所示:

为了方便起见,我们将葡萄酒的评分用Y 代替,葡萄等级分数用X 1表示,外观分析用X 2表示,香气分析用X 3表示,口感分析用X 4表示平衡整体评价用X 5表示,基于逐步回归的基本思想,我们可以得到如下方程:

Y =0.008+X 1 Y =-0.139+0.911X

Y =-7.411+0.6X

1

+0.663X

2

1

+0.816X

2

+1.307X

3

3

Y =-17.540+0.475X Y =-20.151+0.471X

1

+0.827X +0.826X

2

+1.033X +1.014X

+0.820X +0.728X

4

5

1234

+0.695X

这五个方程是通过逐步回归得出的。当只有一个变量的时候我们得出了(5-1),当有两个变量的时候,我们得出了方程(5-2)。当代入三个变量,通过检验选择的葡萄等级分数,外观分析,香气分析,我们得出了方程(5-3)。当代入四个变量,在前三个变量的基础上我们增加了口感分析,得出了方程(5-4)。之后又增加了平衡整体评价指标,得出了方程(5-5). 给定显著性水平为0.05查得临界值t0.025(20)=2.0860;t0.025(30)=2.0423,而我们五个模型的自由度分别为25,24,23,22,21。其临界值介于2.0860和2.0423之间,而我们的模型中各参数的t 值的绝对值均大于临界值,各变量均通过t 检验,说明每次回归增加的解释变量为重要的影响变量。

综合上述所有的检验以及对方程拟合度的考察,我们认为,方程(5-5)才是最优方程,对葡萄酒的评分标准有重要影响的解释变量为葡萄质量的等级分数,外观分析,香气分析,口感分析,平衡整体评价指标。 回归结果

通过SPSS 的回归,我们得出的五个方程的系数以及其标准差等都在表中有体现。由于在上面我们已经分析过,方程(5-5)是最优方程。所以我们得到了下面的葡萄酒的综合评分模型,其表达式如下:

Y =-20.151+0.471X

1

+0.826X

2

+1.014X

3

+0.728X

4

+0.695X

5

R

2

=897

这个是我们最终得出的模型。其中,y 代表葡萄酒的综合分数,X 1代表葡萄等级分数,X 2代表外观分析指标,X 3代表香气分析指标,X 4代表口感分析指标,X 5代表平衡总体评价指标。

结果分析

通过模型,我们得出结论:葡萄酒的质量受酿酒葡萄与葡萄酒理化指标的影响,而且影响还是很大的。葡萄酒的质量既受酿酒葡萄质量差异额影响,又受自身香气,口感等方面的影响

六.模型的评价和改进

6.1优点

(1) 主成分分析利用降维技术用少数几个综合变量来代替原始多个酿酒葡萄的理化指标变量,这些综合变量集中了原始变量的大部分信息。

(2)利用逐步回归可以进一步去掉影响较小的变量,减少变量的个数。 (3)典型相关是研究两组变量之间相关性的一种统计分析方法。与主成分分析一样,它也是一种降维技术。多重相关是典型相关的一个特例,简单相关是多重相关的一个特例。 6.2缺点

(1)求得的主成分的因子负荷的符号有正有负,综合评价函数意义就不明确,命名清晰性低。

(2)变量间可能存在高度依赖性即交互作用会给回归系数的估计带来不合理的解释,变量的一次性引入方程导致计算量增大,计算效率低精算精度不够等问题。

(3)建模的过程中,没有考虑二级理化指标。 6.3 模型的改进

(1)把二级指标的数据考虑在内。

(2)在做主成分分析时与因子分析和聚类分析联合使用。

七 模型的推广

本文建立的模型都具有普遍适用性,可以推广到任意某种食物中的营养成分与其本身质量或加工品的评价的研究,我们可以通过对一个问题的解答而将其运用到更多的现实生活中的案例,这就很好的体现了数学建模的意义所在。

参考文献

[1]曾祥明,任佳慧. 使用SPSS 软件对多项选择题做卡方检验的方法[J].市场研究,2005(10):1-2.

[2]汤兆星. 新疆葡萄加工品质评价和基础数据库建立[D].北京:中国农业科学院,2010. 36-40. [3]byfygxf,逐步回归分析,,2012-09-08. [4]xing_wei_liang, SPSS18.0教程中文完整版, http://wenku.baidu.com/view/989c1fbb1a37f111f1855bf7.html,2012-09-07. [5] 胡玉林 .控制系统的数学模型[M].机械工业出版社,2010.

[6] 卓金武 .Matlab在数学建模中的应用[M].北京航空航天大学出版社,2010.. [7] 姜启源 .数学模型[M].高等教育出版社,2004.

[8] 周一场 .数学模型试验[M].西安交通大学出版社,1999.

[9] 吴孟达,成礼智. 数学模型的理论与实践[M].国防科技大学出版社,1999.

附录

第二问Matlab 程序 clc,clear

rsj='red grape.xls'; wsj='white grape.xls'; rxs='red xishu.xls'; wxs='white xishu.xls'; grade='grade.xls' ; g=xlsread(grade); p=xlsread(rsj); q=xlsread(wsj); a=xlsread(rxs); b=xlsread(wxs); g1=g(1:27,1); g2=g(:,2); r=p*a; w=q*b;

stepwise(r,g1); stepwise(w,g2);

t1=71.6296-0.227541*r(:,1)+0.686865*r(:,2)-0.7467*r(:,4)-0.773192*r(:,5);

t2=76.5321+0.260385*w(:,1)-0.309262*w(:,3)

第三题白葡萄的主成分与白葡萄酒理化指标的典型相关Spss 分析

Run MATRIX procedure:

Correlations for Set-1

Y1 Y2 Y3 Y4 Y5 Y6 Y7 Y8 Y9 Y1 1.0000 -.0002 .0006 -.0002 .0002 -.0008 -.0013 -.0006 .0003 Y2 -.0002 1.0000 -.0003 -.0001 -.0003 -.0008 -.0004 -.0002 -.0007 Y3 .0006 -.0003 1.0000 .0002 -.0003 .0000 -.0007 .0008 -.0002 Y4 -.0002 -.0001 .0002 1.0000 -.0001 -.0005 .0004 -.0004 .0007 Y5 .0002 -.0003 -.0003 -.0001 1.0000 .0000 -.0001 -.0002 .0002 Y6 -.0008 -.0008 .0000 -.0005 .0000 1.0000 .0003 .0004 .0000 Y7 -.0013 -.0004 -.0007 .0004 -.0001 .0003 1.0000 -.0001 .0000 Y8 -.0006 -.0002 .0008 -.0004 -.0002 .0004 -.0001 1.0000 -.0004 Y9 .0003 -.0007 -.0002 .0007 .0002 .0000 .0000 -.0004 1.0000

Correlations for Set-2

P1 P2 P3 P4 P5 P6 P7 P8 P1 1.0000 .8782 .4234 -.1620 .7284 -.1356 .1560 .1120 P2 .8782 1.0000 .5638 -.1380 .7074 -.1879 .1885 .1425 P3 .4234 .5638 1.0000 -.0311 .3377 .0093 .3678 -.0962 P4 -.1620 -.1380 -.0311 1.0000 -.1386 .1417 -.2680 .0170 P5 .7284 .7074 .3377 -.1386 1.0000 -.0201 .1114 .0349 P6 -.1356 -.1879 .0093 .1417 -.0201 1.0000 .3665 -.9081 P7 .1560 .1885 .3678 -.2680 .1114 .3665 1.0000 -.6686 P8 .1120 .1425 -.0962 .0170 .0349 -.9081 -.6686 1.0000

Correlations Between Set-1 and Set-2

P1 P2 P3 P4 P5 P6 P7 P8 Y1 .3711 .4049 .1831 -.1786 .2555 -.6282 -.3001 .6321 Y2 .3153 .4114 .5261 -.0781 .3191 .3481 .5079 -.4264 Y3 .4360 .4522 .5393 -.0807 .1027 -.1674 .2161 .0902 Y4 .0674 .0312 -.1118 -.1041 -.1805 .0145 .1192 -.1547 Y5 -.1283 -.1709 .2663 -.1796 .0377 .0886 -.0613 -.0584 Y6 .3201 .3054 -.1162 -.0262 .4695 -.0683 -.1801 .1073 Y7 .2344 .0970 .0693 -.0428 .0347 -.0473 -.0846 .1221 Y8 .1576 .1337 -.1101 -.3166 .0642 .2629 .0954 -.1977 Y9 -.0078 .0330 -.0485 .1537 .1241 .0728 -.0143 -.0227

Canonical Correlations 1 .921 2 .846 3 .775 4 .678 5 .591 6 .534 7 .299 8 .045

Test that remaining correlations are zero: Wilk's Chi-SQ DF Sig. 1 .004 99.775 72.000 .017 2 .026 65.799 56.000 .174 3 .091 43.121 42.000 .423 4 .228 26.585 30.000 .645 5 .423 15.498 20.000 .747

6 .650 7.753 12.000 .804 7 .909 1.717 6.000 .944 8 .998 .036 2.000 .982

Standardized Canonical Coefficients for Set-1

1 2 3 4 5 6 7 8 Y1 -.498 -.650 -.032 .115 -.018 -.040 -.427 -.149 Y2 -.365 .605 .152 .353 -.370 .017 -.062 -.375 Y3 -.716 .107 .060 -.202 -.080 .125 .122 .476 Y4 .017 .020 .511 -.556 -.194 -.496 .055 .115 Y5 -.083 .151 -.661 .118 -.027 -.677 .007 .229 Y6 .061 -.344 .355 .569 -.284 -.342 .369 .052 Y7 -.281 -.062 -.042 -.010 .495 .008 .719 -.245 Y8 -.048 .233 .382 .295 .696 -.245 -.363 .175 Y9 .124 .007 .031 .297 -.091 .320 .101 .672

Raw Canonical Coefficients for Set-1

1 2 3 4 5 6 7 8 Y1 -.085 -.112 -.005 .020 -.003 -.007 -.073 -.026 Y2 -.074 .123 .031 .072 -.075 .003 -.013 -.076 Y3 -.199 .030 .017 -.056 -.022 .035 .034 .133 Y4 .008 .010 .253 -.275 -.096 -.245 .027 .057 Y5 -.044 .080 -.351 .063 -.014 -.359 .004 .121 Y6 .039 -.221 .229 .366 -.183 -.220 .237 .033 Y7 -.200 -.044 -.030 -.007 .353 .006 .512 -.175 Y8 -.038 .185 .303 .234 .552 -.194 -.288 .139 Y9 .113 .006 .028 .271 -.083 .293 .092 .614

Standardized Canonical Coefficients for Set-2

1 2 3 4 5 6 7 8 P1 -.691 -.146 .107 -.733 .681 -.497 1.717 -.573 P2 .020 .050 1.364 .389 -.397 .453 -1.524 1.162 P3 -.634 .299 -.962 -.141 -.296 -.373 .138 .254 P4 .198 -.082 .082 -.165 -.573 .679 .576 .160 P5 .463 -.225 -.497 1.024 -.658 -.132 .106 -.558 P6 -.453 1.044 -.666 1.603 2.852 1.963 -.218 .231 P7 -.258 .553 -.190 .383 .909 1.823 -.251 -1.095 P8 -.854 .465 -1.226 1.660 3.293 3.137 -.490 -.511

Raw Canonical Coefficients for Set-2

1 2 3 4 5 6 7 8 P1 -.691 -.146 .107 -.733 .681 -.497 1.717 -.573 P2 .020 .050 1.364 .389 -.397 .453 -1.524 1.162 P3 -.634 .299 -.962 -.141 -.296 -.373 .138 .254 P4 .198 -.082 .082 -.165 -.573 .679 .576 .160 P5 .463 -.225 -.497 1.024 -.658 -.132 .106 -.558 P6 -.453 1.044 -.666 1.603 2.852 1.963 -.218 .231 P7 -.258 .553 -.190 .383 .909 1.823 -.251 -1.095 P8 -.854 .465 -1.226 1.660 3.293 3.137 -.490 -.511

Canonical Loadings for Set-1

1 2 3 4 5 6 7 8 Y1 -.498 -.650 -.033 .115 -.019 -.040 -.428 -.148 Y2 -.364 .606 .152 .353 -.370 .017 -.063 -.375 Y3 -.716 .107 .060 -.202 -.080 .125 .121 .476 Y4 .017 .020 .511 -.556 -.194 -.495 .055 .115 Y5 -.083 .150 -.661 .118 -.027 -.677 .007 .229 Y6 .061 -.344 .355 .569 -.283 -.342 .369 .052 Y7 -.279 -.062 -.042 -.010 .495 .008 .720 -.245 Y8 -.048 .233 .382 .295 .696 -.245 -.363 .176 Y9 .124 .006 .031 .296 -.091 .320 .101 .672

Cross Loadings for Set-1

1 2 3 4 5 6 7 8 Y1 -.459 -.550 -.025 .078 -.011 -.021 -.128 -.007 Y2 -.336 .513 .118 .239 -.219 .009 -.019 -.017 Y3 -.659 .091 .047 -.137 -.047 .067 .036 .021 Y4 .016 .017 .396 -.377 -.115 -.264 .016 .005 Y5 -.076 .127 -.512 .080 -.016 -.361 .002 .010 Y6 .057 -.291 .275 .386 -.168 -.182 .110 .002 Y7 -.257 -.052 -.032 -.007 .293 .004 .215 -.011 Y8 -.044 .198 .296 .200 .411 -.131 -.108 .008 Y9 .115 .005 .024 .201 -.054 .171 .030 .030

Canonical Loadings for Set-2

1 2 3 4 5 6 7 8 P1 -.711 -.129 .445 .350 -.055 -.094 .356 -.136 P2 -.729 -.083 .467 .420 -.247 .041 -.019 .063 P3 -.782 .360 -.277 .115 -.392 -.007 -.024 .122 P4 .253 -.036 -.089 -.084 -.312 .570 .517 .480 P5 -.317 -.127 .159 .809 -.304 -.121 .205 -.234

P6 .330 .831 .119 .217 .107 -.141 .269 .190 P7 -.192 .718 .228 -.074 -.244 .118 -.115 -.550 P8 -.263 -.900 -.211 -.032 .110 .188 -.149 .071

Cross Loadings for Set-2

1 2 3 4 5 6 7 8 P1 -.655 -.109 .345 .237 -.033 -.050 .106 -.006 P2 -.672 -.070 .362 .285 -.146 .022 -.006 .003 P3 -.720 .305 -.214 .078 -.232 -.004 -.007 .005 P4 .233 -.030 -.069 -.057 -.184 .304 .154 .021 P5 -.292 -.107 .123 .549 -.180 -.064 .061 -.010 P6 .304 .703 .092 .147 .063 -.075 .080 .008 P7 -.177 .608 .177 -.050 -.144 .063 -.034 -.025 P8 -.243 -.762 -.163 -.022 .065 .100 -.044 .003

Redundancy Analysis:

Proportion of Variance of Set-1 Explained by Its Own Can. Var. Prop Var CV1-1 .111 CV1-2 .111 CV1-3 .111 CV1-4 .111 CV1-5 .111 CV1-6 .111 CV1-7 .111 CV1-8 .111

Proportion of Variance of Set-1 Explained by Opposite Can.Var. Prop Var CV2-1 .094 CV2-2 .080 CV2-3 .067 CV2-4 .051 CV2-5 .039 CV2-6 .032 CV2-7 .010 CV2-8 .000

Proportion of Variance of Set-2 Explained by Its Own Can. Var. Prop Var CV2-1 .253 CV2-2 .273 CV2-3 .080 CV2-4 .128 CV2-5 .061 CV2-6 .052 CV2-7 .068 CV2-8 .083

Proportion of Variance of Set-2 Explained by Opposite Can. Var. Prop Var CV1-1 .215 CV1-2 .196 CV1-3 .048 CV1-4 .059 CV1-5 .021 CV1-6 .015 CV1-7 .006 CV1-8 .000

------ END MATRIX ----- 附表1 红葡萄的标准化处理


相关内容

  • 基于模糊认知图的动态系统的建模与控制
  • 基于模糊认知图的动态系统的建模与控制 [摘要]模糊认知图简单.直观的图形化表示和快捷的数值推理能力使其在医学.工业过程控制以及环境监测等领域得到了广泛的应用.模糊认知图是模糊逻辑和神经网络相结合的产物, 适用于基于动态数据的非线性系统的描述.预测与控制.由于受到人的经验.知识水平和认知能力的限制, ...

  • BIM论文 ▏▏基于CATIA的钢桁架拱桥建模研究
  • 北京华筑建筑科学研究院专家团队及各专业高级工程师团队联合发表各专业BIM学术论文,每周二.四,小编都将为大家定期推送一篇学术论文,敬请期待. 本期论文简介 作者:华筑-比目鱼专家 赵雪锋  刘占省 高级工程师  杨露  郑晓磊  刘继 论文题目:<基于CATIA的钢桁架拱桥建模研究> 刊 ...

  • 7.4对学生学习效果的分析机制.方式和分析情况
  • 一.学生学习效果分析机制和方式 1.成绩简析 教学计划中的每门课程考核结束后,任课教师都能认真填写该门课程的成绩简析.科学 分析该课程的学生学习效果及存在的问题,针对存在问题给出科学合理的改进措施,便于今 后改进改革. 2.学生各类竞赛和荣誉奖 学生各类竞赛是体现学生综合素质和解决实际问题能力的平台 ...

  • 数学建模期末考试论文题目
  • 2014年上学期衡阳师范学院数学与计算科学系2012级数学与应用数学专业 <数学建模>期末考试 课程名称: 数学建模 论文题目: 系别: 数计系 年级: 12级 专业班: 学 生 姓 名 学 号 开 课 时 间: 2014 年 上 学 期 一.银行还贷方式的数学模型 银行目前有等额本息还 ...

  • 偏最小二乘回归法在房地产销售价格分析中的应用
  • ※※※※※※※※※ ※※2015届学生 ※毕业论文材料※※(四)※※※※※※※※※※ 学生毕业论文 偏最小二乘回归法 课题名称 在房地产销售价格分析中的应用 姓 学 院 专名号系业27数学与计算科学院信息与计算科学指导教师 2015年5月20日 湖南城市学院本科毕业论文诚信声明 本人郑重声明:所呈交 ...

  • 参赛邀请函
  • 篇一:大赛邀请函 第六届全国大学生交通科技大赛第六届全国大学生交通科技大赛 邀 请 函 大学(学院)教务处: 全国大学生交通科技大赛(nactrans)是国内第一个由诸多在交通运输工程领域拥有优势地位的高校通力合作促成的大学生学科竞赛,是一个以大学生为主体参与者的全国性.学术型的交通科技创新竞赛项目 ...

  • 线性定常系统特征模型的证明
  • 线性定常系统特征模型的证明 孟斌+吴宏鑫 (北京控制工程研究所空间智能控制技术国家级重点实验室,北京100080) 摘要研究线性定常系统的特征建模问题.证明了多输入多输出线性定常系统 的特征模型可以用二阶时变差分方程组描述,并且刻画了特征模型的建模误差, 在系统不含零实部极点的情形下,在稳态和暂态时 ...

  • 随机过程论文定稿
  • 随机过程与应用 学生姓名: 学 号: 摘 要 针对非线性网络控制系统存在网络诱导时延的问题,提出一种时滞补偿控制方法 首先建立非线性网络系统的T - S模糊模型,将网络诱导时延视为系统输入时滞; 利用马尔科夫链对网络诱导时滞进行建模,在此基础上计算状态转移概率矩阵,依据最大转移概率法对下一步的时滞进 ...

  • 大学教师2012年度考核述职报告
  • 各位领导上午好! 首先,感谢各位领导让我向大家汇报一年来所思所想.所作所为.下面就从三个方面简单谈谈一年来本人在各方面的表现情况. 一.思想政治方面 本人热爱党,热爱人民,坚持党的教育方针,忠诚党的教育事业:能服从学校的工作安排,办事认真负责:把自己的精力.能力全部用于学校的教育教学过程中,遵纪守法

  • 应用物理学专业学习指南终稿
  • 序 歌德说: " 如果你想与这个世界结合, 没有比科学更可靠的途径. " 我们在浩瀚无垠的宇宙中生活着, 每一个人都难免会问出几个最基本. 最有意义. 最值得研究的科学问题, 那就是: " 我是谁? 我来自何方? 我去向何处? " 这也是古希腊哲学家苏格拉底提 ...