论文中统计描述要注意的诸多细节

论文中统计描述要注意的诸多细节

科研论文是呈现研究成果的一种最好的表现形式,其中数据分析的结果则是论文中最为核心的一部分。每当我们辛辛苦苦写好文章,自信满满投稿后,有时候却连Editor 初审的第一关都过不了,甚至惨遭Editor “秒拒”。 Editor 虽然没有研究的原始数据,但是他们都有一双火眼金睛,常能发现很多平时我们没有注意到的错误和问题。

2017年4月,The International Journal of Occupational and Environmental Medicine(The IJOEM)杂志的主编Farrokh Habibzadeh教授发表了一篇名为《Statistical Data Editing in Scientific Articles》的文章[1],针对在论文中进行数据编辑时常犯的错误和需要注意的地方,进行了详细的说明,让我们来一起看看Editor 怎么说。

一、统计方法描述

一般情况下,在论文方法(Method )的最后一部分,要求作者对统计分析方法进行详细的描述。通常包括几个内容:

1、数据分析所使用的软件及其版本、所属公司、公司所属地等信息。例如:The data were analysed by SPSS version 24.0 for Windows (SPSS Inc., Chicago, IL, USA).

2、数据结果的呈现和描述形式。例如:Continuous variables with normal distribution were presents as mean±standard deviation (SD); non-normal variables were reported as median (interquartile range).

3、数据分析时所用到的统计检验方法。例如:Mean of two continuous normally distributed variables were compared by independent samples Student's test.

4、设定的假设检验水准。例如:A value of P

注意:在统计方法描述部分,有些作者不管什么类型的研究论文,都复制粘贴使用同一个固定的描述模板,这样很容易被Editor 发现,统计方法必须要根据自己数据的实际情况,以及真正所使用到的统计方法来进行介绍,万不可张冠李戴。

二、数据的精确度

有些作者在结果描述中太过于追求数据的精度,例如一篇文章中这样描述:The mean work experience of studied participants was 20.365 (SD, 4.35) years。

其中有2个问题:首先,均数和标准差的小数位数在呈现时没有保持一致;其次,工作经验的均值精确到了3位小数,这就意味着在对工作经验这个变量进行调查时,精确到了以“小时”为单位,而在实际的调查过程中一般最多精确到以“月”为单位,因此建议此处的描述修改为20.4 (SD, 4.4) years。

一般情况下,在描述均值、标准差、中位数、四分位间距等指标时,建议小数位数不要超过原始测量数据的小数位数。

对于百分位数的描述,当分母小于100时,一般建议百分位数不保留小数,而当分母小于20时,就不再建议使用百分比来进行描述了。例如:Of 15 patients studied, 26.67% presented with fever,此处百分位数计算的分母为15

但有时在不易获得分母具体数值的情况下,可以根据百分数和绝对数的大小来进行辅助判断。当百分数大于绝对数时,提示分母小于100,此时百分位数可以不用保留小数。例如:“31 (42.47%) patients……”,此时百分数42.47%大于绝对数31,提示分母小于100 (实际上分母为73),则此处建议修改为:“31 (42%) patients……”。

三、常用的统计描述指标

对于正态分布的资料,一般采用均值 (Mean) 和标准差 (Standard Deviation, SD) 来描述数据的集中趋势和离散情况,而对于非正态分布的资料,常用中位数 (Median) 和四分位间距 (Interquartile Range, IQR) 来描述数据的集中趋势和离散情况,这就要求要首先对数据资料的分布特点进行检验。

但是在多数论文中,作者并未直接给出正态性检验的结果。在无法获得原始数据的情况下,我们可以根据标准差和均值的大小进行初步判断。若标准差超过均值的一半,则提示数据很有可能是非正态分布。

由于标准误 (Standard Error of Mean, SEM) 比标准差小,有些作者为了掩盖数据非正态分布的特点,错误地将标准误作为描述数据离散趋势的一个指标。但实际上,标准误反映的是均数抽样误差的大小,而非样本资料的离散情况,此时用标准误来衡量数据资料的离散趋势是不正确的。

95%置信区间(95%CI),可以用均值±1.96*标准误来进行计算。一种情况,当报告某种疾病的患病率时,建议同时报告其95%CI。例如:26 of 300 studied participants had

brucellosis translating to a prevalence of 8.7% (95%CI, 5.5% to 11.9%)。根据95%CI的计算公式,数据资料的均值约等于95%CI上、下限的均值,如8.7%=(5.5%+11.9%)/2, 以此来帮助判断结果是否一致。

另一种情况,多见于描述RR (Relative Risk) 值或者OR (Odds Ratio) 值时,需要报告其95%CI。例如:Smoking was associated with a higher incidence of lung cancer (OR,

2.6; 95%CI, 1.3 to 5.2)。此时RR 或OR 值的平方等于95%CI上、下限的乘积,如

2.62=1.3*5.2,以此来帮助判断结果是否一致。

四、诊断试验的结果报告

对于诊断试验,通常在论文中需要描述的指标包括灵敏度、特异度、阳性预测值、阴性预测值及其95%CI等。当使用ROC (Receive Operating Characteristic) 曲线进行分析时,则还需要报告曲线下面积及其95%CI、截断值 (cut-off point)等信息。

五、测量单位

准确描述测量单位也是非常重要的。例如常常在文章中见到类似的描述:Serum

cholesterol levels was 5.22。缺失相应的单位“mmol/L”,这种遗漏的情况在表格及图的坐标轴中也经常出现。大多数学术杂志都推荐使用国际单位(SI ),因此当某个指标有不同的计量单位时,也建议统一换算为国际单位。

六、P 值

P 值的描述在论文中也常出现各种问题,一些杂志仅要求在描述P 值时给出其判断标准,例如:P

此外,当能够同时获取95%CI和P 值时,一般建议仅报告95%CI即可,因为P 值仅提示假设检验有无统计学显著性,而95%CI还可以直观的显示效应值的范围。例如:Smoking was significantly associated with a higher incidence of lung cancer (OR, 2.6; P =0.04),建议修改为:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。

对于P 值的解释一定要谨慎,在设定检验水平α为0.05的情况下,特别是当P 值在临界值附近时,例如P =0.049时认为有统计学显著性,而P =0.051则认为无统计学显著性,下结论的时候要谨防产生I 类错误和II 类错误,有可能会做出假阳性或假阴性的结论。

通常把这种情况描述为部分显著性(partially significant)或边缘显著性(marginally significant )。如果没有充分的证据证明该效应值在人群中实际上存在显著性,而阴性结果可能是由于抽样误差造成的,那么我们就应该遵守游戏规则,当设定α=0.05时,若假设检验得出P ≥0.05,即认为无统计学显著性,作者可以在论文的讨论部分对其原因进行详细探讨。

七、生存分析

Cox 比例风险模型(Cox proportional hazard model)以生存结局和生存时间为因变量,在校正多种混杂因素后,用来分析研究因素对于结局的影响。需要注意的是,Cox 模型的基本假定是比例风险假定(PH 假定),只有在满足PH 假定的前提下,基于此模型的分析才是可靠有效的,然而对于该假定的检验往往被研究人员所忽略。

检验PH 假定最简单的方法就是观察按照研究变量分组后的Kapla-Meier 生存曲线,若生存曲线明显交叉,则提示不满足PH 假定。

参考文献

[1] J Korean Med Sci 2017; 33: 1072-76

论文中统计描述要注意的诸多细节

科研论文是呈现研究成果的一种最好的表现形式,其中数据分析的结果则是论文中最为核心的一部分。每当我们辛辛苦苦写好文章,自信满满投稿后,有时候却连Editor 初审的第一关都过不了,甚至惨遭Editor “秒拒”。 Editor 虽然没有研究的原始数据,但是他们都有一双火眼金睛,常能发现很多平时我们没有注意到的错误和问题。

2017年4月,The International Journal of Occupational and Environmental Medicine(The IJOEM)杂志的主编Farrokh Habibzadeh教授发表了一篇名为《Statistical Data Editing in Scientific Articles》的文章[1],针对在论文中进行数据编辑时常犯的错误和需要注意的地方,进行了详细的说明,让我们来一起看看Editor 怎么说。

一、统计方法描述

一般情况下,在论文方法(Method )的最后一部分,要求作者对统计分析方法进行详细的描述。通常包括几个内容:

1、数据分析所使用的软件及其版本、所属公司、公司所属地等信息。例如:The data were analysed by SPSS version 24.0 for Windows (SPSS Inc., Chicago, IL, USA).

2、数据结果的呈现和描述形式。例如:Continuous variables with normal distribution were presents as mean±standard deviation (SD); non-normal variables were reported as median (interquartile range).

3、数据分析时所用到的统计检验方法。例如:Mean of two continuous normally distributed variables were compared by independent samples Student's test.

4、设定的假设检验水准。例如:A value of P

注意:在统计方法描述部分,有些作者不管什么类型的研究论文,都复制粘贴使用同一个固定的描述模板,这样很容易被Editor 发现,统计方法必须要根据自己数据的实际情况,以及真正所使用到的统计方法来进行介绍,万不可张冠李戴。

二、数据的精确度

有些作者在结果描述中太过于追求数据的精度,例如一篇文章中这样描述:The mean work experience of studied participants was 20.365 (SD, 4.35) years。

其中有2个问题:首先,均数和标准差的小数位数在呈现时没有保持一致;其次,工作经验的均值精确到了3位小数,这就意味着在对工作经验这个变量进行调查时,精确到了以“小时”为单位,而在实际的调查过程中一般最多精确到以“月”为单位,因此建议此处的描述修改为20.4 (SD, 4.4) years。

一般情况下,在描述均值、标准差、中位数、四分位间距等指标时,建议小数位数不要超过原始测量数据的小数位数。

对于百分位数的描述,当分母小于100时,一般建议百分位数不保留小数,而当分母小于20时,就不再建议使用百分比来进行描述了。例如:Of 15 patients studied, 26.67% presented with fever,此处百分位数计算的分母为15

但有时在不易获得分母具体数值的情况下,可以根据百分数和绝对数的大小来进行辅助判断。当百分数大于绝对数时,提示分母小于100,此时百分位数可以不用保留小数。例如:“31 (42.47%) patients……”,此时百分数42.47%大于绝对数31,提示分母小于100 (实际上分母为73),则此处建议修改为:“31 (42%) patients……”。

三、常用的统计描述指标

对于正态分布的资料,一般采用均值 (Mean) 和标准差 (Standard Deviation, SD) 来描述数据的集中趋势和离散情况,而对于非正态分布的资料,常用中位数 (Median) 和四分位间距 (Interquartile Range, IQR) 来描述数据的集中趋势和离散情况,这就要求要首先对数据资料的分布特点进行检验。

但是在多数论文中,作者并未直接给出正态性检验的结果。在无法获得原始数据的情况下,我们可以根据标准差和均值的大小进行初步判断。若标准差超过均值的一半,则提示数据很有可能是非正态分布。

由于标准误 (Standard Error of Mean, SEM) 比标准差小,有些作者为了掩盖数据非正态分布的特点,错误地将标准误作为描述数据离散趋势的一个指标。但实际上,标准误反映的是均数抽样误差的大小,而非样本资料的离散情况,此时用标准误来衡量数据资料的离散趋势是不正确的。

95%置信区间(95%CI),可以用均值±1.96*标准误来进行计算。一种情况,当报告某种疾病的患病率时,建议同时报告其95%CI。例如:26 of 300 studied participants had

brucellosis translating to a prevalence of 8.7% (95%CI, 5.5% to 11.9%)。根据95%CI的计算公式,数据资料的均值约等于95%CI上、下限的均值,如8.7%=(5.5%+11.9%)/2, 以此来帮助判断结果是否一致。

另一种情况,多见于描述RR (Relative Risk) 值或者OR (Odds Ratio) 值时,需要报告其95%CI。例如:Smoking was associated with a higher incidence of lung cancer (OR,

2.6; 95%CI, 1.3 to 5.2)。此时RR 或OR 值的平方等于95%CI上、下限的乘积,如

2.62=1.3*5.2,以此来帮助判断结果是否一致。

四、诊断试验的结果报告

对于诊断试验,通常在论文中需要描述的指标包括灵敏度、特异度、阳性预测值、阴性预测值及其95%CI等。当使用ROC (Receive Operating Characteristic) 曲线进行分析时,则还需要报告曲线下面积及其95%CI、截断值 (cut-off point)等信息。

五、测量单位

准确描述测量单位也是非常重要的。例如常常在文章中见到类似的描述:Serum

cholesterol levels was 5.22。缺失相应的单位“mmol/L”,这种遗漏的情况在表格及图的坐标轴中也经常出现。大多数学术杂志都推荐使用国际单位(SI ),因此当某个指标有不同的计量单位时,也建议统一换算为国际单位。

六、P 值

P 值的描述在论文中也常出现各种问题,一些杂志仅要求在描述P 值时给出其判断标准,例如:P

此外,当能够同时获取95%CI和P 值时,一般建议仅报告95%CI即可,因为P 值仅提示假设检验有无统计学显著性,而95%CI还可以直观的显示效应值的范围。例如:Smoking was significantly associated with a higher incidence of lung cancer (OR, 2.6; P =0.04),建议修改为:Smoking was associated with a higher incidence of lung cancer (OR, 2.6; 95%CI, 1.3 to 5.2)。

对于P 值的解释一定要谨慎,在设定检验水平α为0.05的情况下,特别是当P 值在临界值附近时,例如P =0.049时认为有统计学显著性,而P =0.051则认为无统计学显著性,下结论的时候要谨防产生I 类错误和II 类错误,有可能会做出假阳性或假阴性的结论。

通常把这种情况描述为部分显著性(partially significant)或边缘显著性(marginally significant )。如果没有充分的证据证明该效应值在人群中实际上存在显著性,而阴性结果可能是由于抽样误差造成的,那么我们就应该遵守游戏规则,当设定α=0.05时,若假设检验得出P ≥0.05,即认为无统计学显著性,作者可以在论文的讨论部分对其原因进行详细探讨。

七、生存分析

Cox 比例风险模型(Cox proportional hazard model)以生存结局和生存时间为因变量,在校正多种混杂因素后,用来分析研究因素对于结局的影响。需要注意的是,Cox 模型的基本假定是比例风险假定(PH 假定),只有在满足PH 假定的前提下,基于此模型的分析才是可靠有效的,然而对于该假定的检验往往被研究人员所忽略。

检验PH 假定最简单的方法就是观察按照研究变量分组后的Kapla-Meier 生存曲线,若生存曲线明显交叉,则提示不满足PH 假定。

参考文献

[1] J Korean Med Sci 2017; 33: 1072-76


相关内容

  • 当论文提交给同行评议时,审稿人为什么会十分关注并仔细阅读"材料与方法"?
  • 1 7 : 0 0 写作要点如下: 1对材料的描述应清楚.准确 通常先对材料做概述,然后再详细描述材料的结构.主要成分或重要特性.设备的功能等. 材料描述中应该清楚地指出研究对象(样品或产品.动物.植物.病人)的数量.来源和准备方法.如果采用具商标名的仪器.化学试剂或药品时,还应包括对仪器进行精确的 ...

  • 导师心目中理想的硕士论文
  • 王德华 题目:学位论文题目要简明.确切,不罗唆,不冗长.评委或读者一看题目就知道你的主要工作.有些同学是在博士期间做了几个不同的内容,这样题目就很难表达准确题意.可以突出一点,但不要将不是很密切的几个内容都写在一个题目上.还有些论文是几个不相干的内容,这样题目就更难定了(这种设计本来就先天不足).不 ...

  • 理想的学位论文写作方法
  • 我心目中比较理想的学位论文--引自王德华 每年答辩季节都要评审学位论文,每年自己学生的论文也都反复修改.但无论怎么细心,错误总还是有.遗憾依旧在,只是换新人. 那么什么样的学位论文才是好论文呢?实际上大家也很明白,心里也都清楚.网上每年公布的国家优秀博士学位论文,科学院的优秀博士学位论文等,都是些典 ...

  • 外贸单证员实习报告范文
  • 一.实习时间.地点 时间:20XX年3月3日5月3日 地点:深圳市福华路京海花园30a.香港丽江电子有限公司 二.实习目的与任务 实习目的: 1.通过本次实习使我能够从理论高度上升到实践高度,更好的实现理论和实践的结合,为我以后工作和学习奠定初步的知识. 2.通过本次实习 使我能够亲身感受到有一个学 ...

  • 作文符合文体要求
  • 增强文体意识,明确文体要求 --写出"符合文体要求"的作文 考纲要求 对于高中生来说,所谓的文体包括两大类,一是常用体裁,一是文学体裁.平时的写作,则是要求会写一般的常用体裁,即记叙文.议论文.说明文和常见的应用文.高考作文,写得最多的则主要是议论文.记叙文. 近年来,高考语文考 ...

  • 外贸业务跟单员实习报告
  •   一 实习时间、地点      时间:2011年3月3日---2011年5月3日      地点:深圳市福华路京海花园30a,香港丽江电子有限公司      二 实习目的与任务      实习目的:      1.通过本次实习使我能够从理论高度上升到实践高度,更好的实现理论和实践的结合,为我以后工 ...

  • 怎么写好毕业论文
  • 怎么写优秀论文 [转]一位研究生导师心目中理想的论文 这是中科院动物研究所王德华老师在他的博客里写的,王老师写的非常好,非常详细,读了以后很受用,所以原文转载过来,希望能有更多的人从中受益.以下是原文: 每年答辩季节都要评审学位论文,每年自己学生的论文也都反复修改.但无论怎么细心,错误总还是有.遗憾 ...

  • 高中议论文写作选材巧从课内挖金
  • 高中议论文写作巧从课内挖金 把课文用作作文例子的三个要点 一.视角要追求独特 教材中的文章,阅卷老师非常熟悉,只有写出"人人笔下皆无"的文章,才能拿到高分.这就要求作者能选择独特的视角. 对每一个普通而平凡的生命而言,一生专注于做好一件事往往更能打动人心.沈从文笔下,翠翠的祖父, ...

  • 科技论文英文摘要的书写规范
  • 科 技 论 文 英 文 摘 要 的 书 写 规 范 化 美国<工程索引>对来源期刊英文摘要撰写的要求 文摘是原始文献的代表:它提供了原始文献的信息内容,但不能代替原始文献(即一次文献),因为其内容已大大简化. 文摘本身给读者一个信息,即该篇文摘所包含的主要概念和讨论的主要问题,帮助科技人 ...