基于二项分布检验法的水质达标评价方法研究

基于二项分布检验法的水质达标评价方法研究 1 引言

水质达标评价(Water Quality Compliance Assessment)是根据一定时段内的水质监测数据,评价水体状态是否符合其功能对应的水质标准的决策过程,是流域水污染防治和水质管理的重要科学依据. 区别于水质评价研究中对水质综合指标、时间序列趋势、季节性特征等的关注,水质达标评价的关注点是水质是否达标,并可以由此评估已有的流域治理措施效果、制定新的治理规划(如TMDL). 在流域水污染防治资金紧缺的条件下,准确识别水体是否达标至关重要:如果评价方法过于保守,会导致水生态系统健康受损; 若评价方法过于严格,会导致水体过于保护,水体自净能力无法得到有效利用及高的治理资金投入. 科学合理的水质达标评价方法是进行水质达标评价的基础. 我国地表水环境质量评价采用单因子评价方法,对断面时空监测数据求算术平均值判断其水质类别,根据断面水质类别比例对流域水质进行分级. 美国清洁水法303(d)条款规定对受损水体实施TMDL 计划,EPA 导则推荐使用监测数据的90%分位数评价水体是否受损,即监测数据的超标个数不能超过10%.在欧盟,采用每年12个月监测数据的算术平均值作为评价依据,少数成员国将监测数据的变异性考虑在内,给出统计置信区间.

水质指标监测值存在不确定性已经被广泛地认识和研究. 我国水质达标评价方法未考虑水质指标的不确定性,美国和欧盟已经将不确定性纳入到水质达标评价中. 水质指标的不确定性包括固有的变异性(如监测数据的季节性差异) 和可减小的不确定性(如测量误差)2部分. 通过合理选择监测断面、监测指标以及质量保证和质量控制(QA/QC)可以减小不确定性,却不能完全消除. 忽视不确定性可能会带来巨大的决策风险,科学合理的水质达标评价方法必须能够表征监测数据的不确定性,将由水质指标不确定性带来的决策风险定量化,为决策提供有用信息.

在统计学视角下,将水质指标视为随机变量,可有效地表征不确定性. 水质指标具有时空分异性,在同一时间获得空间所有点位的监测数据或者在同一点位进行连续的监测是不可能的,只能通过有限的监测数据对水质进行评价,即根据样本数据估计总体特征. 统计学假设检验方法已经广泛应用于环境系统中,假设检验的2类错误可以定量表征水质指标的不确定性带来的决策风险. 针对美国EPA 提出的最大超标率为10%,Smith 等和McBride 等认为10%应该指10%的时间,即总体分布的90%分位数,并采用二项分布检验法(Binomial Test)进行了水质达标评价. 该方法是一种针对二元数据的非参数方法,通过假设检验给出在一定允许超标率和样本容量时的最大超标个数,并与实际监测得到的超标个数对比,评价水质是否超标. 尽管研究者指出二项分布检验法存在信息损失的问题,并提出了参数检验方法,然而McBride 的研究表明,在大部分情况下,二项分布检验法由于不受限于原始数据的分布而更具有鲁棒性. 本文以基于二项分布检验法的水质达标评价方法为基础,分析其决策过程及决策风险的定量表征,并以海河流域为例,对比不同评价方法的差异性,分析其适用性和灵活性.

2 研究方法

2.1 基于二项分布检验法的水质达标评价方法

在二项分布检验法之前,需将监测数据转化为0~1变量,方法为:对于某一特定监测数据x ,将其与水质标准θ对比,对比后的结果记为y ,如果x>θ,即超过水质标准,记y=1;如果x ≤θ,记y=0.令p(0

(1)

假设收集到的N 个监测数据用于评价水质是否达标,记随机变量X=x1,x2,... ,xN ,将X 中的每个元素转化为0~1变量,便得到随机变量Y=y1,y2,... ,yN ,则Y 服从参数为(N,p) 的二项分布,记为Y~B(N,p). 令n 为Y 成功的总次数,即为N 个样品中超标总个数,其分布律为:

(2) 二项分布的分布律表征了水质变量转化为二元数据后超标总个数不确定性. 欲检验总体分布的90%分位数是否达标,即超标率是否小于10%,可令原假设为水质达标,即H0:p≤0.1,备择假设为H1:p>0.1.原假设为真时,可得p=0.1时超标个数n 的分布函数F; 实际监测数据中超标个数nc 不应太大,在给定的显著性水平α下,应有F(nc)=P(n≤nc) ≤1-α; 否则拒绝原假设,判定为水质超标.

2.2 弃真错误和取伪错误

在经典统计学的假设检验过程中,不可避免地要讨论2类错误:弃真错误和取伪错误. 在水质达标评价中,这2类错误是由于水质变量的不确定性导致的. 弃真错误为当原假设为真时,放弃原假设而犯的错误(falsely inferring a breach of standard),弃真错误的概率记为α; 取伪错误为当原假设为假时,相信原假设而犯的错误(falsely inferring compliance) ,弃伪错误的概率记为β. 对于二项分布,$\alpha =P\left( n>{{n}_{s}} \right)=\sum\limits_{j={{n}_{s}}+1}^{N}{C_{N}^{j}{{P}^{j}}}{{\left( 1-P

\right)}^{N-j}}$.计算β时,需要给定效应值η(备择假设和原假设之间的差距) ,二项分布检验法一般取η=0.15,即p ′=p+η=0.25来计算β,计算公式为β=G-1(ns),其中

G(n)=$\sum\limits_{k=1}^{N}{C_{N}^{k}{{P}^{'k}}}{{\left( 1-P' \right)}^{N-k}}$,为成功概率为p ′的二项分布的分布函数,G-1(n)为G(n)的反函数.

按照上述α和β的计算公式,可以得到N 一定时,以不同的ns(0≤ns ≤N) 作为决策准则(即nc>ns判定为超标,nc ≤ns 判定为达标) 时,α和β的变化情况. 由图 1可知N 一定时,对于特定的ns 存在唯一的(α,β) 组合; α随ns 减小,β随ns 增加. 图中竖直虚线假设变量服从对称分布,算术平均值等于50%分位数,则平均值法等价于最大允许超标率为50%.图中竖直实线代表采用10%超标样品数目(以下称为“超标比例法”) 得到的ns ,当N=12时,ns=1,α=0.341;当N=50时,ns=5,α=0.384.可见对于相同样本容量,平均值法弃伪错误的概率很大,超标比例法弃真错误的概率较大,而二项分布检验法则可根据决策者需要选择

基于二项分布检验法的水质达标评价方法研究 1 引言

水质达标评价(Water Quality Compliance Assessment)是根据一定时段内的水质监测数据,评价水体状态是否符合其功能对应的水质标准的决策过程,是流域水污染防治和水质管理的重要科学依据. 区别于水质评价研究中对水质综合指标、时间序列趋势、季节性特征等的关注,水质达标评价的关注点是水质是否达标,并可以由此评估已有的流域治理措施效果、制定新的治理规划(如TMDL). 在流域水污染防治资金紧缺的条件下,准确识别水体是否达标至关重要:如果评价方法过于保守,会导致水生态系统健康受损; 若评价方法过于严格,会导致水体过于保护,水体自净能力无法得到有效利用及高的治理资金投入. 科学合理的水质达标评价方法是进行水质达标评价的基础. 我国地表水环境质量评价采用单因子评价方法,对断面时空监测数据求算术平均值判断其水质类别,根据断面水质类别比例对流域水质进行分级. 美国清洁水法303(d)条款规定对受损水体实施TMDL 计划,EPA 导则推荐使用监测数据的90%分位数评价水体是否受损,即监测数据的超标个数不能超过10%.在欧盟,采用每年12个月监测数据的算术平均值作为评价依据,少数成员国将监测数据的变异性考虑在内,给出统计置信区间.

水质指标监测值存在不确定性已经被广泛地认识和研究. 我国水质达标评价方法未考虑水质指标的不确定性,美国和欧盟已经将不确定性纳入到水质达标评价中. 水质指标的不确定性包括固有的变异性(如监测数据的季节性差异) 和可减小的不确定性(如测量误差)2部分. 通过合理选择监测断面、监测指标以及质量保证和质量控制(QA/QC)可以减小不确定性,却不能完全消除. 忽视不确定性可能会带来巨大的决策风险,科学合理的水质达标评价方法必须能够表征监测数据的不确定性,将由水质指标不确定性带来的决策风险定量化,为决策提供有用信息.

在统计学视角下,将水质指标视为随机变量,可有效地表征不确定性. 水质指标具有时空分异性,在同一时间获得空间所有点位的监测数据或者在同一点位进行连续的监测是不可能的,只能通过有限的监测数据对水质进行评价,即根据样本数据估计总体特征. 统计学假设检验方法已经广泛应用于环境系统中,假设检验的2类错误可以定量表征水质指标的不确定性带来的决策风险. 针对美国EPA 提出的最大超标率为10%,Smith 等和McBride 等认为10%应该指10%的时间,即总体分布的90%分位数,并采用二项分布检验法(Binomial Test)进行了水质达标评价. 该方法是一种针对二元数据的非参数方法,通过假设检验给出在一定允许超标率和样本容量时的最大超标个数,并与实际监测得到的超标个数对比,评价水质是否超标. 尽管研究者指出二项分布检验法存在信息损失的问题,并提出了参数检验方法,然而McBride 的研究表明,在大部分情况下,二项分布检验法由于不受限于原始数据的分布而更具有鲁棒性. 本文以基于二项分布检验法的水质达标评价方法为基础,分析其决策过程及决策风险的定量表征,并以海河流域为例,对比不同评价方法的差异性,分析其适用性和灵活性.

2 研究方法

2.1 基于二项分布检验法的水质达标评价方法

在二项分布检验法之前,需将监测数据转化为0~1变量,方法为:对于某一特定监测数据x ,将其与水质标准θ对比,对比后的结果记为y ,如果x>θ,即超过水质标准,记y=1;如果x ≤θ,记y=0.令p(0

(1)

假设收集到的N 个监测数据用于评价水质是否达标,记随机变量X=x1,x2,... ,xN ,将X 中的每个元素转化为0~1变量,便得到随机变量Y=y1,y2,... ,yN ,则Y 服从参数为(N,p) 的二项分布,记为Y~B(N,p). 令n 为Y 成功的总次数,即为N 个样品中超标总个数,其分布律为:

(2) 二项分布的分布律表征了水质变量转化为二元数据后超标总个数不确定性. 欲检验总体分布的90%分位数是否达标,即超标率是否小于10%,可令原假设为水质达标,即H0:p≤0.1,备择假设为H1:p>0.1.原假设为真时,可得p=0.1时超标个数n 的分布函数F; 实际监测数据中超标个数nc 不应太大,在给定的显著性水平α下,应有F(nc)=P(n≤nc) ≤1-α; 否则拒绝原假设,判定为水质超标.

2.2 弃真错误和取伪错误

在经典统计学的假设检验过程中,不可避免地要讨论2类错误:弃真错误和取伪错误. 在水质达标评价中,这2类错误是由于水质变量的不确定性导致的. 弃真错误为当原假设为真时,放弃原假设而犯的错误(falsely inferring a breach of standard),弃真错误的概率记为α; 取伪错误为当原假设为假时,相信原假设而犯的错误(falsely inferring compliance) ,弃伪错误的概率记为β. 对于二项分布,$\alpha =P\left( n>{{n}_{s}} \right)=\sum\limits_{j={{n}_{s}}+1}^{N}{C_{N}^{j}{{P}^{j}}}{{\left( 1-P

\right)}^{N-j}}$.计算β时,需要给定效应值η(备择假设和原假设之间的差距) ,二项分布检验法一般取η=0.15,即p ′=p+η=0.25来计算β,计算公式为β=G-1(ns),其中

G(n)=$\sum\limits_{k=1}^{N}{C_{N}^{k}{{P}^{'k}}}{{\left( 1-P' \right)}^{N-k}}$,为成功概率为p ′的二项分布的分布函数,G-1(n)为G(n)的反函数.

按照上述α和β的计算公式,可以得到N 一定时,以不同的ns(0≤ns ≤N) 作为决策准则(即nc>ns判定为超标,nc ≤ns 判定为达标) 时,α和β的变化情况. 由图 1可知N 一定时,对于特定的ns 存在唯一的(α,β) 组合; α随ns 减小,β随ns 增加. 图中竖直虚线假设变量服从对称分布,算术平均值等于50%分位数,则平均值法等价于最大允许超标率为50%.图中竖直实线代表采用10%超标样品数目(以下称为“超标比例法”) 得到的ns ,当N=12时,ns=1,α=0.341;当N=50时,ns=5,α=0.384.可见对于相同样本容量,平均值法弃伪错误的概率很大,超标比例法弃真错误的概率较大,而二项分布检验法则可根据决策者需要选择


相关内容

  • 基于物联网的环境噪声监控系统研究
  • 基于物联网的环境噪声监控系统研究 摘要:目前,信息技术在推动生产力发展上越来越受到重视,尤其是在环境监测领域.本文简述了环境噪声自动监控系统结构.功能和特点,开辟了噪声监控系统的新途径,提出的在物联网基础上建立的监控系统是由无线传感网和互联网以及相关核心技术组成的系统模型,硬件和软件均采用模块化结构 ...

  • 巢湖水质时空分布模式研究
  • 第4卷 第3期2010年3月 环境工程学报 Vol. 4, No. 3Mar. 2010 巢湖水质时空分布模式研究 谢 森 何连生 1 23 田学达 席北斗 陈 林 于会彬 1232 (11湘潭大学环境工程系, 湘潭411105; 21中国环境科学研究院, 北京100012; 31西华师范大学国土资 ...

  • 流域水生态承载力与总量控制技术研究
  • 一等奖成果 2.4流域水生态承载力与总量控制技术研究 ¾ 简要信息 [获奖类型]应用一等奖 [任务来源]国家水专项课题 [课题编号]2008ZX07526-004 [课题起止时间]2008年8月-2012年6月 [完成单位]中国水利水电科学研究院 [主要完成人]彭文启.杜 强.刘晓波.诸葛亦斯.谭红 ...

  • 环境监测市场规模高达万亿,关注智慧监测预警管理平台建设!
  • 编者的话 随着中国社会经济的不断发展,城市化规模的迅速扩张,生态环境的恶化也随之而来,环境问题日益突显,主要包括三大方面:(1)大气污染,如PM2.5和二氧化硫;(2)水环境污染,如有机物和重金属;(3)土壤污染,如酸碱盐和重金属.年初,国家制定了更加具有改革精神的环保"十三五" ...

  • 地表水环境影响评价
  • 1.环境目标:(1)保护环境的目标(一般由环境质量标准衡量和控制):(2)控制污染的目标(由污染排放标准衡量和总量指标控制). 2.评价工作的基本思路:(1)根据地面水环境影响评价技术导则和区域可持续发展的要求,明确包括水质要求和环境效益在内的环境质量目标:(2)根据国家排污控制标准(排放标准),分 ...

  • 地形测量投标标书技术设计书
  • 阳山县规划市政局38个"美丽乡村"村庄 地形测绘服务采购项目 (0658-1401SZTCG049) 测量项目实施方案 广州市昊兴测绘有限公司 2014年5月 12日 目录 一.概述 ................................................ ...

  • 关于武汉城市饮用水安全的思考
  • ·174· 山东化工 SHANDONG CHEMICAL INDUSTRY 2017年第46卷 关于武汉城市饮用水安全的思考 刘红姣,郑 琦 430056) (江汉大学化学与环境工程学院,湖北武汉 摘要:武汉市地处长江中下游,城市饮用水原水主要取自长江,随着社会经济的持续发展和城市人口的不断增加,工 ...

  • 关于饮用水水质检测若干问题的探讨
  • 摘 要: 水是人们日常生活中必不可少的重要物质,为人们日常生活及生产提供水分支持,因此水对于人类的生存发展作用重大.在饮用水生产过程中,水质检测涉及到提取.分配以及供应等各个环节,为人们生活用水的安全提供重要保障,更是影响人们生命安全的重要因素.因此,做好饮用水的水质检测工作尤为重要.但是,在当前我 ...

  • 广西生态文明建设指标体系研究_胡倩
  • 市场论坛MARKETFORUM 改革发展 2012年第07期(总第100期) 广西生态文明建设指标体系研究 胡 [摘 倩董大为 要]文章根据生态文明理论,参考国内已有研究成果,选择构建广西生态文明的目标值指标体系,运用定性与定量.模 型预测等方式分析广西生态文明建设目标,运用集对分析模型评价广西14 ...