多维尺度分析
多维尺度分析(multidimensional scaling ,MDS )又称ALSCALE(alternative least-square SCALing), 还有人称之为多维量表分析;它是将一组个体间的相异数据经过MDS 转换成空间构图,且保留原始数据的相对关系。 1多维尺度分析的目的
假设给你一张中国台湾省地图,要你算出基隆,台北,新竹,台中,台南,嘉义,高雄,花莲,台东,枋寮,苏澳,恒春等地间的距离,你可以用一把刻度尺根据比例测算出一个12x12de 距离矩阵;反之,如果给你一份12个城市间的距离矩阵,要你画出12个城市相对位置的二维台湾地图,且要他们与现实尽量保持一致,那就是一件不容易的工作了,多为尺度分析就为此工作提供了一个有效地分析手段。 2多为尺度分析与因子分析和聚类分析的异同
多为尺度分析和因子分析都是维度缩减技术,但是因子分析一般使用相关系数进行分析,使用的是相似性矩阵;而多为尺度分析采用的是不相似的评分数据或者说相异性数据来进行分析;与因子分析不同,多为尺度分析中维度或因素的含义不是分析的中心,各数据点在空间中的位置才是分析解释的核心内容;
多为尺度分析与聚类分析也有相似之处,两者都可以检验样品或者变量之间的近似性或距离,但聚类分析中样品通常是按质分组的;多维分析不是将分组或聚类作为最终结果,而是以一个多维尺度图作为最终结果,比较直观。
若你的目的是要把一组变量缩减成几个因素来代表,可考虑使用因素分析;若目的是变量缩减后以呈现在空间图上,则可以使用MDS 。如果你是想要却仍相似观测值得组别,请考虑以聚类分析来补充多为尺度分析,聚类分析虽可以确认组别,但无法在空间图中标示出观测。
3. 定性的和定量的MDS
MDS 分析测量的尺度不可以是nominal 的,但可以是顺序的ordinal, 等距的interval, 比率的ratio 。顺序量表只可以用于质的分析,又称为定性多维量表分析;它以个体间距离排序为主;而interval 和ratio 量表称为定量多维量表分析(定量多维尺度分析)。
定性的多维量表分析是目前比较常用的MDS 法,因为他可以使用使用量表要求比较宽的顺序量表,但可以得到量表比较严的数值空间图,也就是说,输入的是分类数据,输出的是数值结果。
4.MDS 分析的各种类型
定性MDS 分析------------------------------------------------------------------------------------例1 定量MDS 分析------------------------------------------------------------------------------------例2 不对称方阵MDS 分析--------------------------------------------------------------------------例3 从数据中创建距离对称矩阵MDS-----------------------------------------------------------例4 个体差异模型MDS------------------------------------------------------------------------------例6 5多维量表分析的运算原理
对定量MDS 而言,输入的距离矩阵D =(d rs ) n ⨯n 是欧氏距离,如果能在某个P 维空间上
2
找到坐标点,是其点间的距离d rs =(x r -x s ) ' (x r -x s ) 所形成的矩阵刚好等于D, 即可求得
MDS 的最佳解。其求解是一个迭代过程,不在此细述。 6. 拟合度的测量-------Stress
拟合的好坏的指标称为压力系数(stress 应力),系数越小拟合越好;所绘图与原数据
拟合越好。
假设N 个个体,将有m =n ⨯(n -1) /2对两两间距,大小排序从大到小假设如下
d i 1k 1>d i 2k 2>............. >d i m k m
q
若在q 维空间上画出一个结构图,令d ik 代表转换后i 和k 这一对个体间的距离,如果
拟合效果好则排序应该是
d q i 1k 1≥d q i 2k 2≥............. ≥d q i m k m ,如果排序一致那么真正距离的大小就不是那么重要
了。
Kruskal 提出了一个测量q 维空间结构图拟合度的指标,应力系数。 原始应力系数raw stress:
q ˆq ) φ(q ) =∑i
2
标准化应力系数
S (q ) =
φ(q )
∑∑(d
i
q 2ik
)
=
2q ˆ
∑i
q ik
∑∑(d
i
q 2ik
)
ˆq =d q when →d q 与d 排序一致时; d ik ik ik ik
ˆq 以平均值代替when →d q 与d 排序不一致时; d ik ik ik
Kruskal 解释应力系数0.2以上(不好,poor ),0.1还好fair,0.05好,0.025非常好,0.00perfect. 还有两个拟合度指标分别为Young ’s S-stress与RSQ 。Young ’s S-stress与应力系数一样越小越好,RSQ 越大越好;
7. 如果变量的量纲差异极大,就应该考虑将他们标准化。(MDS 可自动执行)
例1:利用中国台湾省12个城市的飞行距离排序来进行多维尺度分析。数
由于是对称矩阵所以只需要输入下三角即可。 Analyze-→scale--→multidimensional scaling
选定—数据是距离数据。
Shape 选择正对称,所以原始数据只需输入一角。
本体数据是顺序数据,所以选定ordinal 。另外其下方的untie tied observations(打开结观察值)选项用于改变对相同顺序值得处理,勾选此项时,MDS 会强迫给予相同顺序者以不同顺序。
区间interval 用于定量MDS 。比率亦是。
矩阵metrix:勾选此项时,矩阵里的各个数据可以相互比较,如整个矩阵中所有数据单位或者意义相同。
位数可自由选择,本例最大最小2,所以只选择了2维的输出结果。
组图group plots:必选项,输出我们需要的结果图。
数据矩阵:输出MDS 原始和标准化后的数据矩阵。 模型和选项摘要:输出下方方框里的内容。
程序执行的结果如下:
以上只是说明你干了什么事情。
迭代的次数,及应力系数值等拟合评价指标。应力系数0.011效果还好,RSQ=0.99937,也认为效果不错。
各地区在二维空间图中坐标值。
标准化后的距离矩阵。
根据坐标绘制的二维空间图,可对比下面台湾地图,顺序一致,位置相似,拟合效果与现实比较匹配。当然除了方向以外,将上图旋转后可得到比较理想的结果。
例2:美国9大城市飞行距离矩阵见下表,进行多为尺度分析。
注意我们在这里选择的是区间interval 。
例3:某教师想给班级编制一个完美的座次表,为此,他要求每个学生与其他之间相互评分,1----非常喜欢,5-------非常不喜欢进行评分,你有多不喜欢他?______。20个学生,每个对其他19个评分,得到如下数据:
行代表评分者,列代表被评分着;不对自己评分。得到一个不对称的距离矩阵,两人相互之间评分不一定一样;显然这是一个不相似矩阵。
本例得到的距离矩阵是不对称的,因此shape 选择正不对称square asymmetrix 。
选择row 项选项,行中所有单元格可以彼此进行比较,(社会关系图就是这样,每行代表一个评分者)。不同于metrix 矩阵选项,要明白问什么这样,metrix 不一定适合每个案例。
应力系数0.259,效果不好。
完成以社会关系的距离矩阵为数据的分析。
例4:如果在根据上题社会关系排座一学期后,该老师又决定按5次测验成绩排座位。由于测试成绩 不是不相似数据,而我们需要不相似数据矩阵才能计算;因此我们需要根据数据,计算20X20的不相似矩阵。
根据5次成绩计算彼此间的距离矩阵。每一行相当于一个多维数据,可以计算欧式距离。
选择 ----》从数据建立距离----》度量
测试数据是interval 的,且量纲一样,不必要进行-→标准化处理;我们创建的是学生间的距离矩阵,根据数据格式可知,选择--→个案间
选择数据矩阵,可以看到创建的学生间距离矩阵。(下图为部分矩阵)
此图为根据测试成绩建立距离矩阵进行分析得到的空间位置图。供此老师参考排座。
例5:大学相似度。为探讨中国大陆知名学校的相似度,以了解各大学在学生心目中的定位,调查了X 位同学,得到X 份问卷,我们必须先对这X 份调查数据进行平均,然后才能进行MDS 分析;由于我们得到的是相似性数据,还需要转化为不相似性质的数据,转换方式例如:可以通过spss 的conpute 来计算,所有数据都减去10,那么,就转化为学校间的不相
似行调查数据了。MDS 分析的是不相似性质的距离矩阵数据。 例6:个体差异模型
一位老师让学生每天看一小时电视,看过如,ER 60Mminutes The Simpsons 和seinfeld 等一些节目后,这位老师让5名学生对每个节目与其他节目彼此间差异进行打分。对这5个对称的不相似矩阵进行分析,可以判断对每个节目的感知程度。
多维尺度分析
多维尺度分析(multidimensional scaling ,MDS )又称ALSCALE(alternative least-square SCALing), 还有人称之为多维量表分析;它是将一组个体间的相异数据经过MDS 转换成空间构图,且保留原始数据的相对关系。 1多维尺度分析的目的
假设给你一张中国台湾省地图,要你算出基隆,台北,新竹,台中,台南,嘉义,高雄,花莲,台东,枋寮,苏澳,恒春等地间的距离,你可以用一把刻度尺根据比例测算出一个12x12de 距离矩阵;反之,如果给你一份12个城市间的距离矩阵,要你画出12个城市相对位置的二维台湾地图,且要他们与现实尽量保持一致,那就是一件不容易的工作了,多为尺度分析就为此工作提供了一个有效地分析手段。 2多为尺度分析与因子分析和聚类分析的异同
多为尺度分析和因子分析都是维度缩减技术,但是因子分析一般使用相关系数进行分析,使用的是相似性矩阵;而多为尺度分析采用的是不相似的评分数据或者说相异性数据来进行分析;与因子分析不同,多为尺度分析中维度或因素的含义不是分析的中心,各数据点在空间中的位置才是分析解释的核心内容;
多为尺度分析与聚类分析也有相似之处,两者都可以检验样品或者变量之间的近似性或距离,但聚类分析中样品通常是按质分组的;多维分析不是将分组或聚类作为最终结果,而是以一个多维尺度图作为最终结果,比较直观。
若你的目的是要把一组变量缩减成几个因素来代表,可考虑使用因素分析;若目的是变量缩减后以呈现在空间图上,则可以使用MDS 。如果你是想要却仍相似观测值得组别,请考虑以聚类分析来补充多为尺度分析,聚类分析虽可以确认组别,但无法在空间图中标示出观测。
3. 定性的和定量的MDS
MDS 分析测量的尺度不可以是nominal 的,但可以是顺序的ordinal, 等距的interval, 比率的ratio 。顺序量表只可以用于质的分析,又称为定性多维量表分析;它以个体间距离排序为主;而interval 和ratio 量表称为定量多维量表分析(定量多维尺度分析)。
定性的多维量表分析是目前比较常用的MDS 法,因为他可以使用使用量表要求比较宽的顺序量表,但可以得到量表比较严的数值空间图,也就是说,输入的是分类数据,输出的是数值结果。
4.MDS 分析的各种类型
定性MDS 分析------------------------------------------------------------------------------------例1 定量MDS 分析------------------------------------------------------------------------------------例2 不对称方阵MDS 分析--------------------------------------------------------------------------例3 从数据中创建距离对称矩阵MDS-----------------------------------------------------------例4 个体差异模型MDS------------------------------------------------------------------------------例6 5多维量表分析的运算原理
对定量MDS 而言,输入的距离矩阵D =(d rs ) n ⨯n 是欧氏距离,如果能在某个P 维空间上
2
找到坐标点,是其点间的距离d rs =(x r -x s ) ' (x r -x s ) 所形成的矩阵刚好等于D, 即可求得
MDS 的最佳解。其求解是一个迭代过程,不在此细述。 6. 拟合度的测量-------Stress
拟合的好坏的指标称为压力系数(stress 应力),系数越小拟合越好;所绘图与原数据
拟合越好。
假设N 个个体,将有m =n ⨯(n -1) /2对两两间距,大小排序从大到小假设如下
d i 1k 1>d i 2k 2>............. >d i m k m
q
若在q 维空间上画出一个结构图,令d ik 代表转换后i 和k 这一对个体间的距离,如果
拟合效果好则排序应该是
d q i 1k 1≥d q i 2k 2≥............. ≥d q i m k m ,如果排序一致那么真正距离的大小就不是那么重要
了。
Kruskal 提出了一个测量q 维空间结构图拟合度的指标,应力系数。 原始应力系数raw stress:
q ˆq ) φ(q ) =∑i
2
标准化应力系数
S (q ) =
φ(q )
∑∑(d
i
q 2ik
)
=
2q ˆ
∑i
q ik
∑∑(d
i
q 2ik
)
ˆq =d q when →d q 与d 排序一致时; d ik ik ik ik
ˆq 以平均值代替when →d q 与d 排序不一致时; d ik ik ik
Kruskal 解释应力系数0.2以上(不好,poor ),0.1还好fair,0.05好,0.025非常好,0.00perfect. 还有两个拟合度指标分别为Young ’s S-stress与RSQ 。Young ’s S-stress与应力系数一样越小越好,RSQ 越大越好;
7. 如果变量的量纲差异极大,就应该考虑将他们标准化。(MDS 可自动执行)
例1:利用中国台湾省12个城市的飞行距离排序来进行多维尺度分析。数
由于是对称矩阵所以只需要输入下三角即可。 Analyze-→scale--→multidimensional scaling
选定—数据是距离数据。
Shape 选择正对称,所以原始数据只需输入一角。
本体数据是顺序数据,所以选定ordinal 。另外其下方的untie tied observations(打开结观察值)选项用于改变对相同顺序值得处理,勾选此项时,MDS 会强迫给予相同顺序者以不同顺序。
区间interval 用于定量MDS 。比率亦是。
矩阵metrix:勾选此项时,矩阵里的各个数据可以相互比较,如整个矩阵中所有数据单位或者意义相同。
位数可自由选择,本例最大最小2,所以只选择了2维的输出结果。
组图group plots:必选项,输出我们需要的结果图。
数据矩阵:输出MDS 原始和标准化后的数据矩阵。 模型和选项摘要:输出下方方框里的内容。
程序执行的结果如下:
以上只是说明你干了什么事情。
迭代的次数,及应力系数值等拟合评价指标。应力系数0.011效果还好,RSQ=0.99937,也认为效果不错。
各地区在二维空间图中坐标值。
标准化后的距离矩阵。
根据坐标绘制的二维空间图,可对比下面台湾地图,顺序一致,位置相似,拟合效果与现实比较匹配。当然除了方向以外,将上图旋转后可得到比较理想的结果。
例2:美国9大城市飞行距离矩阵见下表,进行多为尺度分析。
注意我们在这里选择的是区间interval 。
例3:某教师想给班级编制一个完美的座次表,为此,他要求每个学生与其他之间相互评分,1----非常喜欢,5-------非常不喜欢进行评分,你有多不喜欢他?______。20个学生,每个对其他19个评分,得到如下数据:
行代表评分者,列代表被评分着;不对自己评分。得到一个不对称的距离矩阵,两人相互之间评分不一定一样;显然这是一个不相似矩阵。
本例得到的距离矩阵是不对称的,因此shape 选择正不对称square asymmetrix 。
选择row 项选项,行中所有单元格可以彼此进行比较,(社会关系图就是这样,每行代表一个评分者)。不同于metrix 矩阵选项,要明白问什么这样,metrix 不一定适合每个案例。
应力系数0.259,效果不好。
完成以社会关系的距离矩阵为数据的分析。
例4:如果在根据上题社会关系排座一学期后,该老师又决定按5次测验成绩排座位。由于测试成绩 不是不相似数据,而我们需要不相似数据矩阵才能计算;因此我们需要根据数据,计算20X20的不相似矩阵。
根据5次成绩计算彼此间的距离矩阵。每一行相当于一个多维数据,可以计算欧式距离。
选择 ----》从数据建立距离----》度量
测试数据是interval 的,且量纲一样,不必要进行-→标准化处理;我们创建的是学生间的距离矩阵,根据数据格式可知,选择--→个案间
选择数据矩阵,可以看到创建的学生间距离矩阵。(下图为部分矩阵)
此图为根据测试成绩建立距离矩阵进行分析得到的空间位置图。供此老师参考排座。
例5:大学相似度。为探讨中国大陆知名学校的相似度,以了解各大学在学生心目中的定位,调查了X 位同学,得到X 份问卷,我们必须先对这X 份调查数据进行平均,然后才能进行MDS 分析;由于我们得到的是相似性数据,还需要转化为不相似性质的数据,转换方式例如:可以通过spss 的conpute 来计算,所有数据都减去10,那么,就转化为学校间的不相
似行调查数据了。MDS 分析的是不相似性质的距离矩阵数据。 例6:个体差异模型
一位老师让学生每天看一小时电视,看过如,ER 60Mminutes The Simpsons 和seinfeld 等一些节目后,这位老师让5名学生对每个节目与其他节目彼此间差异进行打分。对这5个对称的不相似矩阵进行分析,可以判断对每个节目的感知程度。