箱式图
箱式图用于多组数据平均水平和变异程度的直观分析比较。每组数据均可呈现其最小值、
最大值、平均水平,最小值、最大值形成间距都可以反应数据的变异程度。 异常值
异常值又称离群值,指大于1.5倍四分位数间距的数值。在箱式图中常用圆圈表示。 极端值
指大于三倍四分位数间距的数值。
箱式图是一个重要的探索性数据分析工具来决定是否一个因子有重要影响在变量或位置的反应中。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
绘制方法:
首先找出一组数据的五个特征值,包括最小值、最大值、中位数【中位数,就是一组数据中处于最中间的一个数据。从小到大排列,处于中间位置的数据】、两个四分位数(上四分位数和下四分位数);【将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最小的四分位数称为下四分位数】。
然后,连接两个四分位数构成箱子;
最后连接两个极值点与箱子,形成箱式图。
箱式图的画法
箱线图是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。
计算过程:
1 计算上四分位数,中位数,下四分位数
2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)
3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。 7 为箱线图添加名称,数轴等。
在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便 示例:
原始数据
Excel
打开
origin
选中数据
Plot—Statistics—
Box-Chart
然后可编辑图例图像等细节问题。
箱式图
箱式图用于多组数据平均水平和变异程度的直观分析比较。每组数据均可呈现其最小值、
最大值、平均水平,最小值、最大值形成间距都可以反应数据的变异程度。 异常值
异常值又称离群值,指大于1.5倍四分位数间距的数值。在箱式图中常用圆圈表示。 极端值
指大于三倍四分位数间距的数值。
箱式图是一个重要的探索性数据分析工具来决定是否一个因子有重要影响在变量或位置的反应中。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
绘制方法:
首先找出一组数据的五个特征值,包括最小值、最大值、中位数【中位数,就是一组数据中处于最中间的一个数据。从小到大排列,处于中间位置的数据】、两个四分位数(上四分位数和下四分位数);【将所有数值按大小顺序排列并分成四等份,处于三个分割点位置的得分就是四分位数。最小的四分位数称为下四分位数】。
然后,连接两个四分位数构成箱子;
最后连接两个极值点与箱子,形成箱式图。
箱式图的画法
箱线图是对数据分布的一种常用表示方法。但是所见资料中往往说的不是特别清楚,因此需要了解一下箱线图的绘制过程,与部分的意义。
计算过程:
1 计算上四分位数,中位数,下四分位数
2 计算上四分位数和下四分位数之间的差值,即四分位数差(IQR,interquartile range)
3 绘制箱线图的上下范围,上限为上四分位数,下限为下四分位数。在箱子内部中位数的位置绘制横线。
4 大于上四分位数1.5倍四分位数差的值,或者小于下四分位数1.5倍四分位数差的值,划为异常值(outliers)。
5 异常值之外,最靠近上边缘和下边缘的两个值处,画横线,作为箱线图的触须。 6 极端异常值,即超出四分位数差3倍距离的异常值,用实心点表示;较为温和的异常值,即处于1.5倍-3倍四分位数差之间的异常值,用空心点表示。 7 为箱线图添加名称,数轴等。
在SPSS,SigmaPlot, R,SPlus,Origin等软件中,绘制箱线图非常方便 示例:
原始数据
Excel
打开
origin
选中数据
Plot—Statistics—
Box-Chart
然后可编辑图例图像等细节问题。