基于特征挖掘的电网故障诊断方法

第30卷 第10期 中 国 电 机 工 程 学 报 Vol.30 No.10 Apr. 5, 2010 16 2010年4月5日 Proceedings of the CSEE 2010 Chin.Soc.for Elec.Eng. (2010) 10-0016-07 中图分类号:TM 72 文献标志码:A 学科分类号:470⋅40 文章编号:0258-8013

基于特征挖掘的电网故障诊断方法

李再华,白晓民,周子冠,许婧,李晓珺,张霖,孟珺遐,朱宁辉

(中国电力科学研究院,北京市 海淀区 100192)

Method of Power Grid Fault Diagnosis Based on Feature Mining

LI Zai-hua, BAI Xiao-min, ZHOU Zi-guan, XU Jing, LI Xiao-jun, ZHANG Lin, MENG Jun-xia, ZHU Ning-hui

(China Electric Power Research Institute, Haidian District, Beijing 100192, China)

ABSTRACT: The two main bottlenecks in the application of expert system are: the maintenance of rule base; the coordination of speed and accuracy of reasoning. Features and key events of fault events were analyzed, then a novel method of association rule mining based on feature mining was presented, the method was originated from frequent pattern (FP)-algorithm and was improved. The improvements include: features of fault information are utilized, such as the time sequence and causality of events, fault type and serious fault or unusual fault; OR logical function of rules is added; prune technique of FP-tree is improved. Use case shows the improved algorithm could reduce invalid mining largely, and the speed and accuracy of the reasoning is heightened prominently. The algorithm is fit for being used online.

KEY WORDS: data mining; association rule; feature mining; frequent pattern (FP)-algorithm; fault diagnosis; expert system 摘要:专家系统在应用方面的主要瓶颈是:规则库的维护;推理的速度和准确度的协调。分析了故障信息序列中必有或特有的信息,提出了基于特征挖掘的关联规则挖掘方法。结合电网故障信息的特征,改进了频繁模式(frequent pattern,FP)–算法:考虑了故障信息的特征,如时序和因果关联关系、故障性质、严重故障、稀有故障等因素;增加了规则的“或”逻辑;改进了FP-树的修剪技术。算例表明该算法能够大量减少无效挖掘,推理速度和准确度显著提高,适用于在线诊断。 关键词:数据挖掘;关联规则;特征挖掘;频繁模式–算法;故障诊断;专家系统

0 引言

电网故障诊断是指在调度中心或集控中心进行的系统级故障诊断,通过对主要保护和断路器

的动作以及电压、电流等信息进行全局分析,确定故障位置和故障性质,判断保护与开关动作的正确性,并辅助调度员进行决策,以尽快控制故障,尽量避免故障发展。

人工智能技术在故障诊断中应用最广[1-2],其中基于规则推理的专家系统应用相对最多,其主要问题是规则库难以适应电网的变化、推理的速度和准确度难以同时令人满意等。如何高效地利用日益增加的监控信息来完善规则库,并提高推理的速度和准确度,是专家系统实用化面临的关键问题[2]。

电网在不断发展,运行方式也经常变化,因此诊断规则必须不断维护。规则获取包括人工获取和计算机程序获取2种方式,大型专家系统中故障模式复杂,必须以程序获取为主。

故障性质与故障征兆的相关性很强,自动化也积累了大量历史数据。故障诊断的现状是:故障信息很多,但调度员不知准确的故障性质和故障位置,往往是倒闸甚至停供,等待变电站的保护和录波信息,大大降低了运行可靠性。因此迫切需要寻求快速方法,实现在线诊断。数据挖掘能够充分发挥历史数据的作用,进行客观预测,避免专家系统主观偏见带来的潜在错误,其通用性和智能性强,计算效率高,因此,数据挖掘和专家系统技术相结合,是值得研究的方向之一[3-11]。本文利用数据挖掘技术来完善规则库,并实现在线故障诊断。

1 数据挖掘的主要方法和特点

数据挖掘方法主要有关联规则分析、序列模式分析、分类分析、聚类分析等。

关联规则分析通过对数据间的关系(相似性、特征性、差异、依赖、趋势、反常等) 进行建模和描述,挖掘数据项中的有意义的规律。

基金项目:国家重点基础研究发展计划资助项目(973项目) (2004CB217904)。

The National Basic Research Program of China (973 Program) (2004CB217904).

第10期 李再华等:基于特征挖掘的电网故障诊断方法 17

电网故障诊断主要是根据保护和开关的动作逻辑来进行,故障信息序列之间具有时序关联、因果关联等关系,设备之间具有拓扑连接关联关系,因此,关联规则挖掘方法非常适合用于处理电网故障信息。该方法的优点有:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长的数据;计算量可以预测。缺点有:计算量呈幂律的增长趋势;容易忽略离群数据。针对这2个缺点,本文提出了解决方案:1)根据电力系统的特点,构造新的高效算法;2)获取故障的特征,防止忽略稀有故障。

2 关联规则挖掘的算法和改进

专家们提出了许多挖掘算法[12],其中1993年提出的Apriori 算法影响最为深远,后来人们不断对其进行改进[13-16]。无论如何改进,都有共同的基础定义,即设I ={i 1, i 2, i 3, " , i m }是由m 个不同的数据项目组成的集合,其中:元素称为项,项的集合称为项集。给定一个事务数据库D ={T 1, T 2, T 3, " , T n },其中:每一个事务T 是项集I 的一个子集,即T ⊆I ;|D |为D 中的总事务数。X 、Y 都是T 中的项或项集,X ∩Y =Φ。如果事务T 同时包含X 和Y ,那么就可以得到关联规则:

X =>Y (S %, C %, I %) (1) 式中:S %为满足条件的事务T 在事务数据库D 中所占比例,即支持度(Support),S %=S (X ==>Y ) = P (XY ) =|{T :X ∪Y ⊆T , T ∈D }|/|D |;C %为D 中包含 X 的事务中又包含Y 的比例,即可信度(Confidence),

|{T :X ∪Y ⊆T , T ∈D }|

C %=C (X ==>Y ) =P (Y |X ) =;

|{T :X ⊆T , T ∈D }|

I %为X 和Y 的相关程度,即兴趣度(Interest),

P (Y |X )

= I %=I (X ==>Y ) =

P (Y )

|{T :X ∪Y ⊆T , T ∈D }|

|{T :X ⊆T , T ∈D }|⋅|{T :Y ⊆T , T ∈D }|。同时大于可信度阈值C min 和支持度阈值S min 的关联规则称为强关联规则。兴趣度大于1的强关联规则是有意义的可信规则,是挖掘的目标。

挖掘问题可分为2个子问题:1)找出所有满足支持度条件的频繁集;2)使用频繁集生成关联规则。其中第1)步需多次扫描事务数据库,时间和空间的消耗是制约挖掘效率的关键。频繁模式(frequent pattern,FP) 算法首先将数据库压缩成一棵频繁模式树,相当于将数据库分组,能够减少数据

库扫描的次数,而关联信息仍然保存在树的节点中。对于事务数据库D ,构造FP-树的步骤如下:

1)扫描D ,计算频繁项集F 及其支持度,并按支持度计数递减排序,得到频繁项列表L 。

2)创建FP-树的根结点,对D 中每个事务T ,选择T 中的频繁项,并按L 中的次序排序。设排序后的频繁项表为[F|P],其中F 是第1个元素,而P 是剩余元素的表,如果[F|P]非空,调用insert_tree ([F|P],T ) 。之后如果P 还是非空的,则递归调用insert_tree(P , N ) 。

通用数据挖掘算法的不足有:在小样本情况下,可能有误差或有所遗漏;在大样本情况下,可能忽略稀有样本。针对这些不足,本文研究了电网故障信息中必有或特有的信息,即故障特征,提出了基于故障特征的关联规则挖掘,对FP-算法做出改进:

1)总结了电网故障特征。对于包含故障特征的频繁集,一方面可以直接得到关联规则,一方面可以通过挖掘来补充和细化特征,使之更精确。这样可以提高挖掘效率,并避免因小样本带来样本训练不足的问题。

2)提出了“元事件”的概念。为了增强通用性,将故障记录分解为一个个独立事件,称之为“元事件”。将故障元事件分为故障征兆类和故障性质类,诊断规则左项为故障征兆,右项为故障性质。对事件按时间排序,不考虑后继事件导致先发事件的规则。

3)对故障记录样本按故障性质分组,不再考虑不同故障性质的故障记录之间的关联关系,从而减少无效挖掘。分组后,支持度和兴趣度都等于可信度,简化了计算,提高了效率。

4)提出了“自适应可信度”和“加权支持度”的概念。对于每一种故障,自动调整可信度阈值,保证至少挖掘出一种规则,以防遗漏稀有故障相关规则,此称为“自适应可信度”。对于在线挖掘,为提高实时性而不分组,则需要优先挖掘严重故障,因此,设一次故障的损失电量为T loss ,该类故

1

障损失电量的统计平均值T t =∑T loss ,令单相故

n n

1

障的统计平均值T 1=∑T Sloss ,则加权支持度

m m

S w =T t ×支持度/T 1。

5)改进了FP-树的修剪技术。考虑故障信息的特点,采用了深度优先搜索算法;修剪非频繁集时

18 中 国 电 机 工 程 学 报 第30卷

保留包含叶子节点的数据集,即保证任何一种故障性质都不会被修剪。

6)增加了规则的“或”逻辑。例如有些地方采用电流保护,有些地方采用电压保护,电流增大或电压降低都有助于判断故障,如果没有“或”逻辑,则支持度会下降,就可能会遗漏有用规则,而且需要2条规则,引入“或”逻辑之后,就能够防止遗漏或重复。

个典型的故障记录,预处理后生成的故障记录如表1所示。

表1 典型的故障记录 Tab. 1 A classical fault record

编号0731

故障时间基准 2005-11-4

时间 序列 0, 0, 0, 0, 20, 35,

故障征兆 序列 2, 15, 17, 21, 48, 51, 55, 52, 51,

故障 性质

设备 保护

10:34:12, 101030, 1045, 1065

103 DL01001JL1

3.3 建立挖掘模型

在本算法中,建立挖掘模型就是把预处理之后包含阈值信息的频繁项集构建成FP-树。该模型包含故障征兆与故障性质之间的关联关系,离线运行时用于故障特征的自学习和故障规则的提取,在线运行时用于故障诊断。

故障特征可以通过挖掘故障样本获得,也可以根据已有的运行经验生成。在挖掘系统的运行初期,可以归纳一些故障特征,并在运行过程中不断检验和调整,以适应电网的实际。

常见的异常或故障的特征有:

3 关联规则挖掘的实现流程

3.1 关联规则的挖掘过程组成

关联规则的挖掘过程分为3步:1)数据预处理;2)建立挖掘模型;3)规则抽取和检验。 3.2 数据预处理

数据预处理包括故障元事件的形成、排序、分类、逻辑转换、编号,其简介如下:

1)故障元事件的形成。数据采集与监视控制系统(supervisory control and data acquisition,SCADA) 报警事件直接可用;量测则需要逻辑转换;对来自事故追忆记录(post disturbance review,PDR) 、录波装置、保护信息系统的故障记录,可以根据SCADA 点信息表对应分解。分解结果保存到数据仓库,全过程由程序执行,也可以人工调整。

2)故障元事件排序。判断元事件是否属于某序列的标准是事件对象和时间间隔。事件对象要么是同一个开关,要么是在同一个保护的范围内。时间间隔根据调度员的经验决定。

3)故障元事件分类。将故障元事件分为故障征兆类和故障性质类,对故障记录样本按故障性质分组,可以大幅度减少遍历集合的次数。

4)故障元事件逻辑转换。判断故障事件中的量测信息是否超过约定的阈值,从而可以将此包含量测信息的故障事件转换成逻辑事件。通常为了提高速度,只利用遥信信息,诊断有可能出错。本算法考虑了量测信息,能够查出故障相别,诊断更准确。

5)故障元事件编号。对故障事件按类别编号,以增强挖掘软件的通用性。

2005年11月4日10时34分12秒10毫秒时刻,某线路B 相电流增大,A 相、C 相电压降低,零序电流增大,20 ms 时刻,距离保护动作,35 ms 时刻,开关跳闸,1 030 ms 时刻,重合闸动作,1 045 ms 时刻,开关合闸,1 065 ms 时刻,开关跳闸,故障性质为B 相接地故障。对于这样一

1)事故总信号是判断是否发生故障的标志,没有事故总信号的开关动作视为正常操作。

2)跳闸停电区域可能比故障区域大,因此故障信息的时序是故障的重要特征。

3)各种故障或异常都对应一些量测变化。有些地方为了节省投资,只采集两相量测,如果两相电流增大、电压降低、无零序或负序报警,也表明三相短路。不对称故障时,正序电压不能作为故障的判断依据,一般采用零序电压,也有的采用负序电压。

4)遥信信号与相应的遥测必须配套。以遥测为准,跳闸之后,相应的量测变为0,则跳闸信号正确,若无跳闸信号,视为跳闸信号丢失,若无对应的保护信号,视为保护信号丢失。

5)开关短时期内有重合闸信号,则属于自动重合闸动作。量测信息降低至0后又恢复,则自动重合闸成功;量测信息降低至0后不能恢复,则自动重合闸失败。

6)元件的量测反复起伏,表示该元件位于振荡范围内。通常监视枢纽母线电压、联络线功率和功率因数、发电厂机组出力等,摆动幅度最大的地方是振荡中心。

7)振荡过程中量测对称且无突变,表示无故障;振荡过程中量测不对称,表示发生异常。

8)元件的保护和开关的动作信号必须配套。

第10期 李再华等:基于特征挖掘的电网故障诊断方法 19

靠近故障点的保护先动作。只有保护信号,没有开关动作信号,属于开关拒动;只有开关信号,没有对应的保护信号,属于开关误动。

电力系统的复杂故障包括连锁故障、多重独立故障、共模故障、同步振荡和异步振荡等,其中可能有保护或开关的误动、拒动等情况。正确诊断复杂故障,很有必要,但是需要更多可靠的数据。文拒动等情况的献[8]讨论了针对保护或开关的误动、

挖掘,并实现了高容错的诊断。对于多重独立故障和共模故障,预处理可以定位到故障元件,然后按简单故障处理;对于振荡,根据量测变化幅度大致可以定位到故障元件。

连锁故障是分属于不同元件、有时序和因果关联的简单故障序列,主要原因有2种:1)潮流转移导致潮流越限;2)开关或保护拒动。因此,判断2个故障序列是否是连锁故障的主要依据是,后序列中的元件是否因为前序列中元件潮流转移并导致潮流越限或后者的保护属于前者的后备保护。文献[16]提供了快速计算关键输电断面、找出连锁故障元件的方法。

得到连锁故障序列以后,将该序列按故障时间和元件分段,使得每个分段包含与此开关或故障区间相关的完整的元事件和量测事件。连锁故障的模式虽然变化很多,但是连锁故障的分段的种类不多,所以分段组合的规律可以通过挖掘获得。因此,连锁故障模型是有关联的简单故障模型的组合,每个分段的挖掘过程与简单故障相同。分段挖掘完成之后,进行连锁故障模式的分析和特征提取,包括潮流转移度和故障区间延伸方向的关系等。 3.4 规则抽取和检验

规则抽取就是选用满足条件的频繁项集,按照与预处理编号过程相逆的步骤生成关联规则。规则检验就是检验新规则是否与原规则库重复或矛盾,以及利用实际的故障记录检验挖掘获得的规则的诊断效果,并与原有规则库的诊断效果进行对比。 3.5 规则挖掘算法和诊断系统的流程

改进的挖掘算法流程如图1所示。在线诊断的流程如图2所示。

电力系统中的零序保护比负序保护应用更广,因此规定零序信息的优先度比负序高,在规则库搜索过程中,优先匹配零序规则。

对于未找到匹配特征和匹配规则的故障,视为稀有故障,如果不包含错误信息,就新增规则来适

图1 关联规则挖掘改进算法流程图

Fig. 1 Flow chart of improved algorithm

图2 在线故障诊断流程图

Fig. 2 Flow chart of online fault diagnosis

应稀有故障。每次挖掘完成,都更新故障类型计数和规则库中规则的可信度。

4 关联规则挖掘案例

4.1 算法效率对比分析

设故障记录中总的故障元事件个数为m ,各分组的元事件个数最大值为n ,令k =m /n 。

1)经典Apriori 算法的效率分析。

在空间复杂度方面,会产生大量的频繁项集(产生的候选项集的个数约为2m ) ,需要巨额存储空间;

20 中 国 电 机 工 程 学 报 第30卷

在时间复杂度方面,运算次数为o (2m ) 。

输出的结果如表3所示。其中:情况1是挖掘200条正常的故障记录;情况2、3、4是在情况1的基础上增加100条不良记录(分别是80条有缺失信息和20条有冗余信息、100条有缺失信息、100条有冗余信息) 。Apriori 和FP-算法会产生更多的规则,但是没有考虑电力系统的特点,很多规则不符合实际,还有些规则是互补的,可以合并。

表2 3种挖掘算法的比较

Tab. 2 Comparison of 3 algorithms

故障记故障类型录个数200500

个数

耗时/s

Apriori FP-算法

1.1456.336

改进 算法

产生规则个数 (s =c =0.8, i=1) Apriori FP-算法

改进算法

2)经典FP-算法的效率分析。

FP-算法相当于把数据库分成一组条件数据库,其优点是访问数据库的次数降低为o (n 2) ,从指数级增长降低到平方级增长,缺点是仍然需要占用大量内存,存储需求为o (2m ) 。

3)改进算法的效率分析。

改进算法的效果有:①不考虑后继事件导致先发事件的规则,存储需求和运算次数降低一半;②引入事件分类和分组技术,改进了修剪技术,存储需求降低为o (2数降为o (n 2) 。

中国电网中,单相短路约占75%,而单相短路可以分为3组,每组占25%,所以一般k =4。因此,存储需求能够降低约64倍。

m /(k +1)

) ,运算次数降为o (2) ;③第

m /k

一次扫描生成频繁集之后,引入FP-算法,运算次

16 18.19216 129.827

0.147 35 35 16 0.694 36 36 16 2.751 33 33 16

1 00016 520.63524.768

表3 针对包含不良数据记录的挖掘

Tab. 3 Data-mining in record-set with bad data

情况

Apriori 和FP-算法 规则数

可信度阈值

0.8 0.8 0.8 0.8

规则数

改进算法

最小可信度

0.82 0.75 0.71 0.82

16 16 16 16

4)与MaxCFPTree 算法的比较。

文献[17]的主要思想是将数据库的项集分解成若干子集,使用邻接矩阵法产生频繁集,运行期间不产生候选集,只产生少量的最大频繁集。其空间效率优于FP-算法,运算时间效率则次于FP-算法。本文的改进算法在空间效率方面与MaxCFPTree 算法接近,但时间效率大大提高。

综上所述,本文的改进算法在空间复杂度和时间复杂度2方面均具有很大的优越性。 4.2 挖掘测试实验

从某省电力公司和某地区供电公司收集了227条故障记录,建立含200条记录的挖掘库和含27条记录的测试库,在P4(CPU3.06 GHz、内存1G) 计算机上进行挖掘实验。挖掘库和测试库的结构完全一致,区别在于挖掘库在预处理时按故障性质分组,用于挖掘获取规则,而测试库无故障性质信息,用于检验规则的有效性和通用性。实验内容包括3部分:1)将这200条故障记录复制扩展到分别生成500条和1000条故障记录,测试大样本情况下算法的效率;2)在挖掘库中增加100条不良记录,用于模拟故障事件中的丢失信息、错误信息和冗余信息,检验程序的健壮性;3)利用挖掘输出的规则对测试库的故障记录进行诊断。

3种挖掘算法的效率比较如表2所示。可见,1)

3种算法的规则覆盖率相同时,改进算法的规则最少,所以诊断效率最高。

2)针对包含不良数据的故障记录,各种算法

1 35 2 33 3 30 4 36

3)利用改进算法产生的规则对测试库中27条故障记录进行诊断,规则匹配度全部达到0.8以上。如果视挖掘库为历史数据,则测试库相当于在线的增量数据,对测试库的有效诊断表明本算法适用于对实时数据进行诊断。

挖掘结果示例:“21|23, 48, 51, 55, 52, => 100”对应的规则就是“零序电流增大或零序电压升高,保护动作,开关跳闸,重合闸动作,开关重合,=> 瞬时接地故障”。

上述实验表明:1)改进算法的效率大为提高,产生的规则更为精简。2)改进算法的健壮性最佳。挖掘的规则条数主要与可信度指标有关,在有缺失信息的情况下,适当降低可信度仍然可以挖掘出有效的规则;冗余信息对挖掘的影响较小,说明数据挖掘能够把握重要关联规则,滤除干扰,在实际数据部分有错误或缺失时对基于规则推理的故障诊断影响很小。3)改进算法速度快,而且小样本的挖掘结果可以用于样本空间以外的测试,因而适用于增量挖掘,说明本算法可以用于在线诊断。 4.3 诊断实验

下文利用现场运行的故障诊断系统和数据挖掘模块来分别诊断实际发生的某复杂故障。故障所在电网的局部拓扑图如图3所示。故障信息序列如

第10期 李再华等:基于特征挖掘的电网故障诊断方法 21

表4所示。

动,所以诊断更准确。

4.4 在线故障预警实验

故障诊断系统在线运行时,数据挖掘模块可以对实时完成预处理的报警信息序列进行增量挖掘,快速诊断系统异常,包括对故障的预警。异常信息与规则的匹配度可作为预期故障的概率指标,值得强调的是,这是指如果发生故障时的故障模式的概率,而不是发生故障的概率。表5是对一些在线报警信息序列的诊断。

表5 在线诊断测试结果 Tab. 5 Result of diagnosis online

报警信息

诊断结果 =>124;c =0.83; p =0.40;

57,15,48,51,

概率0.50 =>102;c =0.75; p =0.60;

概率0.50 =>105;c =0.91; p =0.89;

1,2,3,13,15,16,22,48,51,

概率0.99 =>111;c =0.57; p =0.67;

概率0.01

AB 相间故障概率0.99三相接地概率0.01 保护误动概率0.50 A 相接地概率0.50 预期故障模式概率 三相接地概率1.0

1,2,3, =>111;c =0.86; p =1.00;

图3 故障电网局部拓扑图

Fig. 3 Partial topological graph of fault power grid

表4 主要的故障信息序列 Tab. 4 Main events of fault

序列编号

时间/ms

对象

元事件

0 DL1 C 相差动保护动作 34 DL3 C 相开关跳闸 37 DL1 C 相开关跳闸

1

900 DL1 C 相开关重合闸动作 988 DL1 C 相开关重合 1 025 1 063 1 115

DL1 DL1 DL3

C 相差动保护动作 三相开关跳闸 A 、B 相开关跳闸

0 DL5 C 相差动保护动作 23 DL5 C 相开关跳闸

2

898 DL5 C 相开关重合闸动作 944 DL5 C 相开关重合 980 DL5 C相差动保护动作 1 115

3

DL5

三相开关跳闸

0 DL2 过负荷保护动作 37 DL4 三相开关跳闸 44 DL2 三相开关跳闸

故障诊断系统诊断的结果为“**线路1电流差动保护动作,切除**线路1成功,重合闸失败,**线路2过负荷保护动作,切除**线路2成功;建议检查过负荷保护。”。事后分析证明电流差动保护和过负荷保护都是误动,诊断基本正确,但是没有发现差动保护动作是误动。

在数据挖掘模块中,上述信息预处理结果为“(DL1,差动保护)44,43,51,55,52,44,43;(DL5,差动保护)44,43,51,55,52,44,43;(DL2,过负荷保护)

这些诊断结果对故障诊断系统起支持作用,也

可以直接对运行人员的决策起参考作用。 4.5 数据挖掘应用的注意事项

在实际应用中,以下几方面值得注意:

1)故障元事件的设置。故障元事件及其权值与电网实际情况有关,随保护配置不同而不同。

2)量测信息的逻辑化。可以根据需要调整量测值的变化幅度和变化速率的阈值,决定是否需要产生报警事件。

3)离线挖掘的样本获取。训练样本的覆盖面越广,能够诊断的故障模式越多,并且越准确。系统可以在线挖掘实际运行数据,也可以在离线状态挖掘历史故障和仿真的预想故障数据。

5 结论

本文提出了基于特征挖掘的关联规则挖掘算法,结合电力系统故障信息的特点,对通用算法进行了重要改进,既大幅度提高了速度,又提高了诊断的准确度,还可以量化计算规则的可信度、支持度、兴趣度等指标,为调度决策提供更多参考;设计和验证了简单故障的挖掘模型和复杂连锁故障的分段挖掘模型。测试表明:改进算法有效地避免了经典算法的缺点,算法消耗时间从指数级增长降低为平方级增长,诊断结果有效。通过分析发现故障关联规则,可以为故障诊断提供判据、为防止连

45,51;(DL4,过负荷保护)45,51, ”。匹配结果为“故DL1差动保护动作;重合闸失败! 引起相邻障类型:

。线路三相过负荷误动;重合闸失败! 匹配度0.75”分析量测得到差动保护闭锁失败这一事件,序列变为“44,63,43, 51,55,52,44,43;44,63,43,51,55,52,44,

43;;”。匹配结果为“DL1差动保护闭锁失败;差动保护误动;重合闸失败! 引起相邻线路三相过负荷误动;重合闸失败! 匹配度

0.67”。可见考虑量测信息后能够发现差动保护误

22 中 国 电 机 工 程 学 报 第30卷

锁故障提供预警信息。能够挖掘实时增量数据,适用于在线挖掘和诊断。

在实际应用中,诊断规则需要与保护定值相适应。二者之间的量化关系以及如何根据保护定值的变化调整诊断规则,或利用诊断结果指导保护定值的整定,值得进一步研究。

Bao Wen,Yu Daren,Wang Wei,et al.Sensor fault detection in thermal power plants based on association rule[J].Proceedings of the CSEE,2003,23(12):170-174(in Chinese).

[10] 李建强,刘吉臻,张栾英,等.基于数据挖掘的电站运行优化应

用研究[J].中国电机工程学报,2006,26(20):118-123. Li Jianqiang,Liu Jizhen,Zhang Luanying,et al.The research and application of fuzzy association rule mining in power plant operat- ion optimization[J].Proceedings of the CSEE,2006,26(20):118-123(in Chinese) .

[11] 郭庆琳,郑玲.基于模糊粗糙集数据挖掘的汽轮机组故障诊断研

究[J].中国电机工程学报,2007,27(8):81-87.

Guo Qinglin,Zheng Ling.A novel approach for fault diagnosis of steam turbine unit based on fuzzy rough set data mining theory [J].Proceedings of the CSEE,2007,27(8):81-87(in Chinese). [12] Agrawal R ,Imielinski T,Swami A.Mining association rules between

sets of items in large databases[C].International Conference on Management of Data,Washington DC,1993.

[13] Zaki M J.Scalable algorithms for association mining[J].IEEE

Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

[14] Han Jiawei ,Pei Jian,Yin Yiwen.Mining frequent patterns without

candidate generation[C].Conference on Management of Data,Dallas ,Texas ,2000.

[15] 欧阳为民,郑诚,蔡庆生.数据库中加权关联规则的发现[J].软

件学报,2001,12(4):612-619.

Ouyang Weimin,Zheng Cheng,Cai Qingsheng.Discovery of weighted association rules in databases[J].Journal of Software,2001,12(4):612-619(in Chinese).

[16] 方竹.输电断面在线安全监视的方法与实现研究[D].北京:中国

电力科学研究院,2007.

Fang Zhu .The study for the approach and realization of on-line

security monitering based on steady-state security region[D].Beijing :China Electric Power Research Institute,2007(in Chinese). [17] 陈安龙,唐常杰,陶宏才,等.基于极大团和FP-Tree 的挖掘关

联规则的改进算法[J].软件学报,2004,15(8):1198-1207. Chen Anlong,Tang Changjie,Tao Hongcai,et al.An improved algorithm based on maximum clique and fp-tree for mining association rules[J].Journal of Software,2004,15(8):1198-1207(in Chinese) .

参考文献

[1] 毕天姝,倪以信,吴复立,等.基于径向基函数神经网络和模糊

控制系统的电网故障诊断新方法[J].中国电机工程学报,2005, 25(14):15-21.

Bi Tianshu,Ni Yixin,Wu Fuli,et al.Hybrid fault section estimation system with radial basis function neural network and fuzzy system [J].Proceedings of the CSEE,2005,25(14):15-21(in Chinese). [2] 赵伟,白晓民,丁剑,等.基于协同式专家系统及多智能体技术

的电网故障诊断方法[J].中国电机工程学报,2006,26(20):1-8. Zhao Wei,Bai Xiaomin,Ding Jian,et al.A new fault diagnosis approach of power grid based on cooperative expert system and multi-agent technology[J].Proceedings of the CSEE,2006,26(20): 1-8(in Chinese).

[3] Cardoso G ,Rolim J G,Zurn H H.Identifying the primary fault section

after contingencies in bulk power systems[J].IEEE Trans. on Power Delivery ,2008,23(3):1335-1342.

[4] Madan S ,Son W K,Bollinger K E.Applications of data mining for

power systems[C].IEEE Canadian Conference on Electrical and Computer Engineering,St. John's,Canada ,1997.

[5] 路广,张伯明,孙宏斌.数据仓库与数据挖掘技术在电力系统中

的应用[J].电网技术,2001,25(8):54-57.

Lu Guang,Zhang Boming,Sun Hongbin.Application of data warehouse and data mining techniques to power systems[J].Power System Technology,2001,25(8):54-57(in Chinese).

[6] 文福拴,韩祯祥.计及警报信息时间特性的故障诊断模型[J].电

力系统自动化,1999,23(17):6-9.

Wen Fushuan,Han Zhenxiang.A new fault diagnosis model capable of dealing with the temporal information of alarm messages [J].Automation of Electric Power Systems,1999,23(17):6-9(in Chinese) .

[7] 廖志伟,孙雅明.基于事件序列数据挖掘原理的高压输电线系统

故障诊断(一) 模型与算法[J].电力系统自动化,2004,28(4):22-27. Liao Zhiwei,Sun Yaming.A new data mining approach for fault diagnosis of HV transmission line system based on sequence of events ,part one:model and method[J].Automation of Electric Power Systems ,2004,28(4):22-27(in Chinese).

[8] 廖志伟.数据挖掘与电力系统故障诊断容错性能的研究[D].天津:

天津大学,2002.

Liao Zhiwei.Study on data mining and fault-tolerance performance of power system fault diagnosis[D].Tianjin :Tianjin University,2002(in Chinese) .

[9] 鲍文,于达仁,王伟,等.基于关联规则的火电厂传感器故障检

测[J].中国电机工程学报,2003,23(12):170-174.

。 ) ,男,博士研究生,从事电力[email protected]

) ,男,博士,教授级高工,研

) ,男,博士研究生,从事电力

(责任编辑 刘浩芳)

第30卷 第10期 中 国 电 机 工 程 学 报 Vol.30 No.10 Apr. 5, 2010 16 2010年4月5日 Proceedings of the CSEE 2010 Chin.Soc.for Elec.Eng. (2010) 10-0016-07 中图分类号:TM 72 文献标志码:A 学科分类号:470⋅40 文章编号:0258-8013

基于特征挖掘的电网故障诊断方法

李再华,白晓民,周子冠,许婧,李晓珺,张霖,孟珺遐,朱宁辉

(中国电力科学研究院,北京市 海淀区 100192)

Method of Power Grid Fault Diagnosis Based on Feature Mining

LI Zai-hua, BAI Xiao-min, ZHOU Zi-guan, XU Jing, LI Xiao-jun, ZHANG Lin, MENG Jun-xia, ZHU Ning-hui

(China Electric Power Research Institute, Haidian District, Beijing 100192, China)

ABSTRACT: The two main bottlenecks in the application of expert system are: the maintenance of rule base; the coordination of speed and accuracy of reasoning. Features and key events of fault events were analyzed, then a novel method of association rule mining based on feature mining was presented, the method was originated from frequent pattern (FP)-algorithm and was improved. The improvements include: features of fault information are utilized, such as the time sequence and causality of events, fault type and serious fault or unusual fault; OR logical function of rules is added; prune technique of FP-tree is improved. Use case shows the improved algorithm could reduce invalid mining largely, and the speed and accuracy of the reasoning is heightened prominently. The algorithm is fit for being used online.

KEY WORDS: data mining; association rule; feature mining; frequent pattern (FP)-algorithm; fault diagnosis; expert system 摘要:专家系统在应用方面的主要瓶颈是:规则库的维护;推理的速度和准确度的协调。分析了故障信息序列中必有或特有的信息,提出了基于特征挖掘的关联规则挖掘方法。结合电网故障信息的特征,改进了频繁模式(frequent pattern,FP)–算法:考虑了故障信息的特征,如时序和因果关联关系、故障性质、严重故障、稀有故障等因素;增加了规则的“或”逻辑;改进了FP-树的修剪技术。算例表明该算法能够大量减少无效挖掘,推理速度和准确度显著提高,适用于在线诊断。 关键词:数据挖掘;关联规则;特征挖掘;频繁模式–算法;故障诊断;专家系统

0 引言

电网故障诊断是指在调度中心或集控中心进行的系统级故障诊断,通过对主要保护和断路器

的动作以及电压、电流等信息进行全局分析,确定故障位置和故障性质,判断保护与开关动作的正确性,并辅助调度员进行决策,以尽快控制故障,尽量避免故障发展。

人工智能技术在故障诊断中应用最广[1-2],其中基于规则推理的专家系统应用相对最多,其主要问题是规则库难以适应电网的变化、推理的速度和准确度难以同时令人满意等。如何高效地利用日益增加的监控信息来完善规则库,并提高推理的速度和准确度,是专家系统实用化面临的关键问题[2]。

电网在不断发展,运行方式也经常变化,因此诊断规则必须不断维护。规则获取包括人工获取和计算机程序获取2种方式,大型专家系统中故障模式复杂,必须以程序获取为主。

故障性质与故障征兆的相关性很强,自动化也积累了大量历史数据。故障诊断的现状是:故障信息很多,但调度员不知准确的故障性质和故障位置,往往是倒闸甚至停供,等待变电站的保护和录波信息,大大降低了运行可靠性。因此迫切需要寻求快速方法,实现在线诊断。数据挖掘能够充分发挥历史数据的作用,进行客观预测,避免专家系统主观偏见带来的潜在错误,其通用性和智能性强,计算效率高,因此,数据挖掘和专家系统技术相结合,是值得研究的方向之一[3-11]。本文利用数据挖掘技术来完善规则库,并实现在线故障诊断。

1 数据挖掘的主要方法和特点

数据挖掘方法主要有关联规则分析、序列模式分析、分类分析、聚类分析等。

关联规则分析通过对数据间的关系(相似性、特征性、差异、依赖、趋势、反常等) 进行建模和描述,挖掘数据项中的有意义的规律。

基金项目:国家重点基础研究发展计划资助项目(973项目) (2004CB217904)。

The National Basic Research Program of China (973 Program) (2004CB217904).

第10期 李再华等:基于特征挖掘的电网故障诊断方法 17

电网故障诊断主要是根据保护和开关的动作逻辑来进行,故障信息序列之间具有时序关联、因果关联等关系,设备之间具有拓扑连接关联关系,因此,关联规则挖掘方法非常适合用于处理电网故障信息。该方法的优点有:可以产生清晰有用的结果;支持间接数据挖掘;可以处理变长的数据;计算量可以预测。缺点有:计算量呈幂律的增长趋势;容易忽略离群数据。针对这2个缺点,本文提出了解决方案:1)根据电力系统的特点,构造新的高效算法;2)获取故障的特征,防止忽略稀有故障。

2 关联规则挖掘的算法和改进

专家们提出了许多挖掘算法[12],其中1993年提出的Apriori 算法影响最为深远,后来人们不断对其进行改进[13-16]。无论如何改进,都有共同的基础定义,即设I ={i 1, i 2, i 3, " , i m }是由m 个不同的数据项目组成的集合,其中:元素称为项,项的集合称为项集。给定一个事务数据库D ={T 1, T 2, T 3, " , T n },其中:每一个事务T 是项集I 的一个子集,即T ⊆I ;|D |为D 中的总事务数。X 、Y 都是T 中的项或项集,X ∩Y =Φ。如果事务T 同时包含X 和Y ,那么就可以得到关联规则:

X =>Y (S %, C %, I %) (1) 式中:S %为满足条件的事务T 在事务数据库D 中所占比例,即支持度(Support),S %=S (X ==>Y ) = P (XY ) =|{T :X ∪Y ⊆T , T ∈D }|/|D |;C %为D 中包含 X 的事务中又包含Y 的比例,即可信度(Confidence),

|{T :X ∪Y ⊆T , T ∈D }|

C %=C (X ==>Y ) =P (Y |X ) =;

|{T :X ⊆T , T ∈D }|

I %为X 和Y 的相关程度,即兴趣度(Interest),

P (Y |X )

= I %=I (X ==>Y ) =

P (Y )

|{T :X ∪Y ⊆T , T ∈D }|

|{T :X ⊆T , T ∈D }|⋅|{T :Y ⊆T , T ∈D }|。同时大于可信度阈值C min 和支持度阈值S min 的关联规则称为强关联规则。兴趣度大于1的强关联规则是有意义的可信规则,是挖掘的目标。

挖掘问题可分为2个子问题:1)找出所有满足支持度条件的频繁集;2)使用频繁集生成关联规则。其中第1)步需多次扫描事务数据库,时间和空间的消耗是制约挖掘效率的关键。频繁模式(frequent pattern,FP) 算法首先将数据库压缩成一棵频繁模式树,相当于将数据库分组,能够减少数据

库扫描的次数,而关联信息仍然保存在树的节点中。对于事务数据库D ,构造FP-树的步骤如下:

1)扫描D ,计算频繁项集F 及其支持度,并按支持度计数递减排序,得到频繁项列表L 。

2)创建FP-树的根结点,对D 中每个事务T ,选择T 中的频繁项,并按L 中的次序排序。设排序后的频繁项表为[F|P],其中F 是第1个元素,而P 是剩余元素的表,如果[F|P]非空,调用insert_tree ([F|P],T ) 。之后如果P 还是非空的,则递归调用insert_tree(P , N ) 。

通用数据挖掘算法的不足有:在小样本情况下,可能有误差或有所遗漏;在大样本情况下,可能忽略稀有样本。针对这些不足,本文研究了电网故障信息中必有或特有的信息,即故障特征,提出了基于故障特征的关联规则挖掘,对FP-算法做出改进:

1)总结了电网故障特征。对于包含故障特征的频繁集,一方面可以直接得到关联规则,一方面可以通过挖掘来补充和细化特征,使之更精确。这样可以提高挖掘效率,并避免因小样本带来样本训练不足的问题。

2)提出了“元事件”的概念。为了增强通用性,将故障记录分解为一个个独立事件,称之为“元事件”。将故障元事件分为故障征兆类和故障性质类,诊断规则左项为故障征兆,右项为故障性质。对事件按时间排序,不考虑后继事件导致先发事件的规则。

3)对故障记录样本按故障性质分组,不再考虑不同故障性质的故障记录之间的关联关系,从而减少无效挖掘。分组后,支持度和兴趣度都等于可信度,简化了计算,提高了效率。

4)提出了“自适应可信度”和“加权支持度”的概念。对于每一种故障,自动调整可信度阈值,保证至少挖掘出一种规则,以防遗漏稀有故障相关规则,此称为“自适应可信度”。对于在线挖掘,为提高实时性而不分组,则需要优先挖掘严重故障,因此,设一次故障的损失电量为T loss ,该类故

1

障损失电量的统计平均值T t =∑T loss ,令单相故

n n

1

障的统计平均值T 1=∑T Sloss ,则加权支持度

m m

S w =T t ×支持度/T 1。

5)改进了FP-树的修剪技术。考虑故障信息的特点,采用了深度优先搜索算法;修剪非频繁集时

18 中 国 电 机 工 程 学 报 第30卷

保留包含叶子节点的数据集,即保证任何一种故障性质都不会被修剪。

6)增加了规则的“或”逻辑。例如有些地方采用电流保护,有些地方采用电压保护,电流增大或电压降低都有助于判断故障,如果没有“或”逻辑,则支持度会下降,就可能会遗漏有用规则,而且需要2条规则,引入“或”逻辑之后,就能够防止遗漏或重复。

个典型的故障记录,预处理后生成的故障记录如表1所示。

表1 典型的故障记录 Tab. 1 A classical fault record

编号0731

故障时间基准 2005-11-4

时间 序列 0, 0, 0, 0, 20, 35,

故障征兆 序列 2, 15, 17, 21, 48, 51, 55, 52, 51,

故障 性质

设备 保护

10:34:12, 101030, 1045, 1065

103 DL01001JL1

3.3 建立挖掘模型

在本算法中,建立挖掘模型就是把预处理之后包含阈值信息的频繁项集构建成FP-树。该模型包含故障征兆与故障性质之间的关联关系,离线运行时用于故障特征的自学习和故障规则的提取,在线运行时用于故障诊断。

故障特征可以通过挖掘故障样本获得,也可以根据已有的运行经验生成。在挖掘系统的运行初期,可以归纳一些故障特征,并在运行过程中不断检验和调整,以适应电网的实际。

常见的异常或故障的特征有:

3 关联规则挖掘的实现流程

3.1 关联规则的挖掘过程组成

关联规则的挖掘过程分为3步:1)数据预处理;2)建立挖掘模型;3)规则抽取和检验。 3.2 数据预处理

数据预处理包括故障元事件的形成、排序、分类、逻辑转换、编号,其简介如下:

1)故障元事件的形成。数据采集与监视控制系统(supervisory control and data acquisition,SCADA) 报警事件直接可用;量测则需要逻辑转换;对来自事故追忆记录(post disturbance review,PDR) 、录波装置、保护信息系统的故障记录,可以根据SCADA 点信息表对应分解。分解结果保存到数据仓库,全过程由程序执行,也可以人工调整。

2)故障元事件排序。判断元事件是否属于某序列的标准是事件对象和时间间隔。事件对象要么是同一个开关,要么是在同一个保护的范围内。时间间隔根据调度员的经验决定。

3)故障元事件分类。将故障元事件分为故障征兆类和故障性质类,对故障记录样本按故障性质分组,可以大幅度减少遍历集合的次数。

4)故障元事件逻辑转换。判断故障事件中的量测信息是否超过约定的阈值,从而可以将此包含量测信息的故障事件转换成逻辑事件。通常为了提高速度,只利用遥信信息,诊断有可能出错。本算法考虑了量测信息,能够查出故障相别,诊断更准确。

5)故障元事件编号。对故障事件按类别编号,以增强挖掘软件的通用性。

2005年11月4日10时34分12秒10毫秒时刻,某线路B 相电流增大,A 相、C 相电压降低,零序电流增大,20 ms 时刻,距离保护动作,35 ms 时刻,开关跳闸,1 030 ms 时刻,重合闸动作,1 045 ms 时刻,开关合闸,1 065 ms 时刻,开关跳闸,故障性质为B 相接地故障。对于这样一

1)事故总信号是判断是否发生故障的标志,没有事故总信号的开关动作视为正常操作。

2)跳闸停电区域可能比故障区域大,因此故障信息的时序是故障的重要特征。

3)各种故障或异常都对应一些量测变化。有些地方为了节省投资,只采集两相量测,如果两相电流增大、电压降低、无零序或负序报警,也表明三相短路。不对称故障时,正序电压不能作为故障的判断依据,一般采用零序电压,也有的采用负序电压。

4)遥信信号与相应的遥测必须配套。以遥测为准,跳闸之后,相应的量测变为0,则跳闸信号正确,若无跳闸信号,视为跳闸信号丢失,若无对应的保护信号,视为保护信号丢失。

5)开关短时期内有重合闸信号,则属于自动重合闸动作。量测信息降低至0后又恢复,则自动重合闸成功;量测信息降低至0后不能恢复,则自动重合闸失败。

6)元件的量测反复起伏,表示该元件位于振荡范围内。通常监视枢纽母线电压、联络线功率和功率因数、发电厂机组出力等,摆动幅度最大的地方是振荡中心。

7)振荡过程中量测对称且无突变,表示无故障;振荡过程中量测不对称,表示发生异常。

8)元件的保护和开关的动作信号必须配套。

第10期 李再华等:基于特征挖掘的电网故障诊断方法 19

靠近故障点的保护先动作。只有保护信号,没有开关动作信号,属于开关拒动;只有开关信号,没有对应的保护信号,属于开关误动。

电力系统的复杂故障包括连锁故障、多重独立故障、共模故障、同步振荡和异步振荡等,其中可能有保护或开关的误动、拒动等情况。正确诊断复杂故障,很有必要,但是需要更多可靠的数据。文拒动等情况的献[8]讨论了针对保护或开关的误动、

挖掘,并实现了高容错的诊断。对于多重独立故障和共模故障,预处理可以定位到故障元件,然后按简单故障处理;对于振荡,根据量测变化幅度大致可以定位到故障元件。

连锁故障是分属于不同元件、有时序和因果关联的简单故障序列,主要原因有2种:1)潮流转移导致潮流越限;2)开关或保护拒动。因此,判断2个故障序列是否是连锁故障的主要依据是,后序列中的元件是否因为前序列中元件潮流转移并导致潮流越限或后者的保护属于前者的后备保护。文献[16]提供了快速计算关键输电断面、找出连锁故障元件的方法。

得到连锁故障序列以后,将该序列按故障时间和元件分段,使得每个分段包含与此开关或故障区间相关的完整的元事件和量测事件。连锁故障的模式虽然变化很多,但是连锁故障的分段的种类不多,所以分段组合的规律可以通过挖掘获得。因此,连锁故障模型是有关联的简单故障模型的组合,每个分段的挖掘过程与简单故障相同。分段挖掘完成之后,进行连锁故障模式的分析和特征提取,包括潮流转移度和故障区间延伸方向的关系等。 3.4 规则抽取和检验

规则抽取就是选用满足条件的频繁项集,按照与预处理编号过程相逆的步骤生成关联规则。规则检验就是检验新规则是否与原规则库重复或矛盾,以及利用实际的故障记录检验挖掘获得的规则的诊断效果,并与原有规则库的诊断效果进行对比。 3.5 规则挖掘算法和诊断系统的流程

改进的挖掘算法流程如图1所示。在线诊断的流程如图2所示。

电力系统中的零序保护比负序保护应用更广,因此规定零序信息的优先度比负序高,在规则库搜索过程中,优先匹配零序规则。

对于未找到匹配特征和匹配规则的故障,视为稀有故障,如果不包含错误信息,就新增规则来适

图1 关联规则挖掘改进算法流程图

Fig. 1 Flow chart of improved algorithm

图2 在线故障诊断流程图

Fig. 2 Flow chart of online fault diagnosis

应稀有故障。每次挖掘完成,都更新故障类型计数和规则库中规则的可信度。

4 关联规则挖掘案例

4.1 算法效率对比分析

设故障记录中总的故障元事件个数为m ,各分组的元事件个数最大值为n ,令k =m /n 。

1)经典Apriori 算法的效率分析。

在空间复杂度方面,会产生大量的频繁项集(产生的候选项集的个数约为2m ) ,需要巨额存储空间;

20 中 国 电 机 工 程 学 报 第30卷

在时间复杂度方面,运算次数为o (2m ) 。

输出的结果如表3所示。其中:情况1是挖掘200条正常的故障记录;情况2、3、4是在情况1的基础上增加100条不良记录(分别是80条有缺失信息和20条有冗余信息、100条有缺失信息、100条有冗余信息) 。Apriori 和FP-算法会产生更多的规则,但是没有考虑电力系统的特点,很多规则不符合实际,还有些规则是互补的,可以合并。

表2 3种挖掘算法的比较

Tab. 2 Comparison of 3 algorithms

故障记故障类型录个数200500

个数

耗时/s

Apriori FP-算法

1.1456.336

改进 算法

产生规则个数 (s =c =0.8, i=1) Apriori FP-算法

改进算法

2)经典FP-算法的效率分析。

FP-算法相当于把数据库分成一组条件数据库,其优点是访问数据库的次数降低为o (n 2) ,从指数级增长降低到平方级增长,缺点是仍然需要占用大量内存,存储需求为o (2m ) 。

3)改进算法的效率分析。

改进算法的效果有:①不考虑后继事件导致先发事件的规则,存储需求和运算次数降低一半;②引入事件分类和分组技术,改进了修剪技术,存储需求降低为o (2数降为o (n 2) 。

中国电网中,单相短路约占75%,而单相短路可以分为3组,每组占25%,所以一般k =4。因此,存储需求能够降低约64倍。

m /(k +1)

) ,运算次数降为o (2) ;③第

m /k

一次扫描生成频繁集之后,引入FP-算法,运算次

16 18.19216 129.827

0.147 35 35 16 0.694 36 36 16 2.751 33 33 16

1 00016 520.63524.768

表3 针对包含不良数据记录的挖掘

Tab. 3 Data-mining in record-set with bad data

情况

Apriori 和FP-算法 规则数

可信度阈值

0.8 0.8 0.8 0.8

规则数

改进算法

最小可信度

0.82 0.75 0.71 0.82

16 16 16 16

4)与MaxCFPTree 算法的比较。

文献[17]的主要思想是将数据库的项集分解成若干子集,使用邻接矩阵法产生频繁集,运行期间不产生候选集,只产生少量的最大频繁集。其空间效率优于FP-算法,运算时间效率则次于FP-算法。本文的改进算法在空间效率方面与MaxCFPTree 算法接近,但时间效率大大提高。

综上所述,本文的改进算法在空间复杂度和时间复杂度2方面均具有很大的优越性。 4.2 挖掘测试实验

从某省电力公司和某地区供电公司收集了227条故障记录,建立含200条记录的挖掘库和含27条记录的测试库,在P4(CPU3.06 GHz、内存1G) 计算机上进行挖掘实验。挖掘库和测试库的结构完全一致,区别在于挖掘库在预处理时按故障性质分组,用于挖掘获取规则,而测试库无故障性质信息,用于检验规则的有效性和通用性。实验内容包括3部分:1)将这200条故障记录复制扩展到分别生成500条和1000条故障记录,测试大样本情况下算法的效率;2)在挖掘库中增加100条不良记录,用于模拟故障事件中的丢失信息、错误信息和冗余信息,检验程序的健壮性;3)利用挖掘输出的规则对测试库的故障记录进行诊断。

3种挖掘算法的效率比较如表2所示。可见,1)

3种算法的规则覆盖率相同时,改进算法的规则最少,所以诊断效率最高。

2)针对包含不良数据的故障记录,各种算法

1 35 2 33 3 30 4 36

3)利用改进算法产生的规则对测试库中27条故障记录进行诊断,规则匹配度全部达到0.8以上。如果视挖掘库为历史数据,则测试库相当于在线的增量数据,对测试库的有效诊断表明本算法适用于对实时数据进行诊断。

挖掘结果示例:“21|23, 48, 51, 55, 52, => 100”对应的规则就是“零序电流增大或零序电压升高,保护动作,开关跳闸,重合闸动作,开关重合,=> 瞬时接地故障”。

上述实验表明:1)改进算法的效率大为提高,产生的规则更为精简。2)改进算法的健壮性最佳。挖掘的规则条数主要与可信度指标有关,在有缺失信息的情况下,适当降低可信度仍然可以挖掘出有效的规则;冗余信息对挖掘的影响较小,说明数据挖掘能够把握重要关联规则,滤除干扰,在实际数据部分有错误或缺失时对基于规则推理的故障诊断影响很小。3)改进算法速度快,而且小样本的挖掘结果可以用于样本空间以外的测试,因而适用于增量挖掘,说明本算法可以用于在线诊断。 4.3 诊断实验

下文利用现场运行的故障诊断系统和数据挖掘模块来分别诊断实际发生的某复杂故障。故障所在电网的局部拓扑图如图3所示。故障信息序列如

第10期 李再华等:基于特征挖掘的电网故障诊断方法 21

表4所示。

动,所以诊断更准确。

4.4 在线故障预警实验

故障诊断系统在线运行时,数据挖掘模块可以对实时完成预处理的报警信息序列进行增量挖掘,快速诊断系统异常,包括对故障的预警。异常信息与规则的匹配度可作为预期故障的概率指标,值得强调的是,这是指如果发生故障时的故障模式的概率,而不是发生故障的概率。表5是对一些在线报警信息序列的诊断。

表5 在线诊断测试结果 Tab. 5 Result of diagnosis online

报警信息

诊断结果 =>124;c =0.83; p =0.40;

57,15,48,51,

概率0.50 =>102;c =0.75; p =0.60;

概率0.50 =>105;c =0.91; p =0.89;

1,2,3,13,15,16,22,48,51,

概率0.99 =>111;c =0.57; p =0.67;

概率0.01

AB 相间故障概率0.99三相接地概率0.01 保护误动概率0.50 A 相接地概率0.50 预期故障模式概率 三相接地概率1.0

1,2,3, =>111;c =0.86; p =1.00;

图3 故障电网局部拓扑图

Fig. 3 Partial topological graph of fault power grid

表4 主要的故障信息序列 Tab. 4 Main events of fault

序列编号

时间/ms

对象

元事件

0 DL1 C 相差动保护动作 34 DL3 C 相开关跳闸 37 DL1 C 相开关跳闸

1

900 DL1 C 相开关重合闸动作 988 DL1 C 相开关重合 1 025 1 063 1 115

DL1 DL1 DL3

C 相差动保护动作 三相开关跳闸 A 、B 相开关跳闸

0 DL5 C 相差动保护动作 23 DL5 C 相开关跳闸

2

898 DL5 C 相开关重合闸动作 944 DL5 C 相开关重合 980 DL5 C相差动保护动作 1 115

3

DL5

三相开关跳闸

0 DL2 过负荷保护动作 37 DL4 三相开关跳闸 44 DL2 三相开关跳闸

故障诊断系统诊断的结果为“**线路1电流差动保护动作,切除**线路1成功,重合闸失败,**线路2过负荷保护动作,切除**线路2成功;建议检查过负荷保护。”。事后分析证明电流差动保护和过负荷保护都是误动,诊断基本正确,但是没有发现差动保护动作是误动。

在数据挖掘模块中,上述信息预处理结果为“(DL1,差动保护)44,43,51,55,52,44,43;(DL5,差动保护)44,43,51,55,52,44,43;(DL2,过负荷保护)

这些诊断结果对故障诊断系统起支持作用,也

可以直接对运行人员的决策起参考作用。 4.5 数据挖掘应用的注意事项

在实际应用中,以下几方面值得注意:

1)故障元事件的设置。故障元事件及其权值与电网实际情况有关,随保护配置不同而不同。

2)量测信息的逻辑化。可以根据需要调整量测值的变化幅度和变化速率的阈值,决定是否需要产生报警事件。

3)离线挖掘的样本获取。训练样本的覆盖面越广,能够诊断的故障模式越多,并且越准确。系统可以在线挖掘实际运行数据,也可以在离线状态挖掘历史故障和仿真的预想故障数据。

5 结论

本文提出了基于特征挖掘的关联规则挖掘算法,结合电力系统故障信息的特点,对通用算法进行了重要改进,既大幅度提高了速度,又提高了诊断的准确度,还可以量化计算规则的可信度、支持度、兴趣度等指标,为调度决策提供更多参考;设计和验证了简单故障的挖掘模型和复杂连锁故障的分段挖掘模型。测试表明:改进算法有效地避免了经典算法的缺点,算法消耗时间从指数级增长降低为平方级增长,诊断结果有效。通过分析发现故障关联规则,可以为故障诊断提供判据、为防止连

45,51;(DL4,过负荷保护)45,51, ”。匹配结果为“故DL1差动保护动作;重合闸失败! 引起相邻障类型:

。线路三相过负荷误动;重合闸失败! 匹配度0.75”分析量测得到差动保护闭锁失败这一事件,序列变为“44,63,43, 51,55,52,44,43;44,63,43,51,55,52,44,

43;;”。匹配结果为“DL1差动保护闭锁失败;差动保护误动;重合闸失败! 引起相邻线路三相过负荷误动;重合闸失败! 匹配度

0.67”。可见考虑量测信息后能够发现差动保护误

22 中 国 电 机 工 程 学 报 第30卷

锁故障提供预警信息。能够挖掘实时增量数据,适用于在线挖掘和诊断。

在实际应用中,诊断规则需要与保护定值相适应。二者之间的量化关系以及如何根据保护定值的变化调整诊断规则,或利用诊断结果指导保护定值的整定,值得进一步研究。

Bao Wen,Yu Daren,Wang Wei,et al.Sensor fault detection in thermal power plants based on association rule[J].Proceedings of the CSEE,2003,23(12):170-174(in Chinese).

[10] 李建强,刘吉臻,张栾英,等.基于数据挖掘的电站运行优化应

用研究[J].中国电机工程学报,2006,26(20):118-123. Li Jianqiang,Liu Jizhen,Zhang Luanying,et al.The research and application of fuzzy association rule mining in power plant operat- ion optimization[J].Proceedings of the CSEE,2006,26(20):118-123(in Chinese) .

[11] 郭庆琳,郑玲.基于模糊粗糙集数据挖掘的汽轮机组故障诊断研

究[J].中国电机工程学报,2007,27(8):81-87.

Guo Qinglin,Zheng Ling.A novel approach for fault diagnosis of steam turbine unit based on fuzzy rough set data mining theory [J].Proceedings of the CSEE,2007,27(8):81-87(in Chinese). [12] Agrawal R ,Imielinski T,Swami A.Mining association rules between

sets of items in large databases[C].International Conference on Management of Data,Washington DC,1993.

[13] Zaki M J.Scalable algorithms for association mining[J].IEEE

Transactions on Knowledge and Data Engineering,2000,12(3):372-390.

[14] Han Jiawei ,Pei Jian,Yin Yiwen.Mining frequent patterns without

candidate generation[C].Conference on Management of Data,Dallas ,Texas ,2000.

[15] 欧阳为民,郑诚,蔡庆生.数据库中加权关联规则的发现[J].软

件学报,2001,12(4):612-619.

Ouyang Weimin,Zheng Cheng,Cai Qingsheng.Discovery of weighted association rules in databases[J].Journal of Software,2001,12(4):612-619(in Chinese).

[16] 方竹.输电断面在线安全监视的方法与实现研究[D].北京:中国

电力科学研究院,2007.

Fang Zhu .The study for the approach and realization of on-line

security monitering based on steady-state security region[D].Beijing :China Electric Power Research Institute,2007(in Chinese). [17] 陈安龙,唐常杰,陶宏才,等.基于极大团和FP-Tree 的挖掘关

联规则的改进算法[J].软件学报,2004,15(8):1198-1207. Chen Anlong,Tang Changjie,Tao Hongcai,et al.An improved algorithm based on maximum clique and fp-tree for mining association rules[J].Journal of Software,2004,15(8):1198-1207(in Chinese) .

参考文献

[1] 毕天姝,倪以信,吴复立,等.基于径向基函数神经网络和模糊

控制系统的电网故障诊断新方法[J].中国电机工程学报,2005, 25(14):15-21.

Bi Tianshu,Ni Yixin,Wu Fuli,et al.Hybrid fault section estimation system with radial basis function neural network and fuzzy system [J].Proceedings of the CSEE,2005,25(14):15-21(in Chinese). [2] 赵伟,白晓民,丁剑,等.基于协同式专家系统及多智能体技术

的电网故障诊断方法[J].中国电机工程学报,2006,26(20):1-8. Zhao Wei,Bai Xiaomin,Ding Jian,et al.A new fault diagnosis approach of power grid based on cooperative expert system and multi-agent technology[J].Proceedings of the CSEE,2006,26(20): 1-8(in Chinese).

[3] Cardoso G ,Rolim J G,Zurn H H.Identifying the primary fault section

after contingencies in bulk power systems[J].IEEE Trans. on Power Delivery ,2008,23(3):1335-1342.

[4] Madan S ,Son W K,Bollinger K E.Applications of data mining for

power systems[C].IEEE Canadian Conference on Electrical and Computer Engineering,St. John's,Canada ,1997.

[5] 路广,张伯明,孙宏斌.数据仓库与数据挖掘技术在电力系统中

的应用[J].电网技术,2001,25(8):54-57.

Lu Guang,Zhang Boming,Sun Hongbin.Application of data warehouse and data mining techniques to power systems[J].Power System Technology,2001,25(8):54-57(in Chinese).

[6] 文福拴,韩祯祥.计及警报信息时间特性的故障诊断模型[J].电

力系统自动化,1999,23(17):6-9.

Wen Fushuan,Han Zhenxiang.A new fault diagnosis model capable of dealing with the temporal information of alarm messages [J].Automation of Electric Power Systems,1999,23(17):6-9(in Chinese) .

[7] 廖志伟,孙雅明.基于事件序列数据挖掘原理的高压输电线系统

故障诊断(一) 模型与算法[J].电力系统自动化,2004,28(4):22-27. Liao Zhiwei,Sun Yaming.A new data mining approach for fault diagnosis of HV transmission line system based on sequence of events ,part one:model and method[J].Automation of Electric Power Systems ,2004,28(4):22-27(in Chinese).

[8] 廖志伟.数据挖掘与电力系统故障诊断容错性能的研究[D].天津:

天津大学,2002.

Liao Zhiwei.Study on data mining and fault-tolerance performance of power system fault diagnosis[D].Tianjin :Tianjin University,2002(in Chinese) .

[9] 鲍文,于达仁,王伟,等.基于关联规则的火电厂传感器故障检

测[J].中国电机工程学报,2003,23(12):170-174.

。 ) ,男,博士研究生,从事电力[email protected]

) ,男,博士,教授级高工,研

) ,男,博士研究生,从事电力

(责任编辑 刘浩芳)


相关内容

  • 电网故障诊断方法研究综述
  • 电网故障诊断方法研究综述 何正友12,张耀天1 , (1.西南交通大学电气工程学院,四川省成都市610031 2. 电力系统保护与动态安全监控教育部重点实验室(华北电力大学),北京市昌平区102206) 摘 要:首先,针对电网故障诊断中应用较早的人工智能方 法:专家系统.人工神经网络.Petri网. ...

  • 智能电网调度关键技术
  • 第30卷 第9期 电 力 建 设ElectricPowerConstruction Vo.l30, No.9 Sep,2009 2009年9月 #1# #智能电网技术专栏# 智能电网调度关键技术 严 胜,姚建国,杨志宏,高宗和 (国网电力科学研究院,南京市,210003) [摘 要] 智能调度是建设 ...

  • 输电线路差异化防雷技术培训20110411
  • 2011年度输电线路运行分析暨运维新 技术培训会议文件(交流材料) 输电线路差异化防雷技术培训 (2011年4月15日) 国网电力科学研究院 国网电力科学研究院坚持面向建设以超.特高压为电网核心的坚强智能电网的重大技术需求,瞄准雷电监测与防护前沿基础理论研究.电网雷电灾害风险评估及防护策略制定.雷电 ...

  • 高渗透率分布式电源接入配电网故障分析与保护影响分析
  • 高渗透率分布式电源接入配电网故障分析与保护影响分析 刘锦英肖云东李伟 (1.山东电力集团公司济宁供电公司电力调度控制中心,山东省济宁市 2.山东电力集团公司曲阜供电公司,山东省曲阜市,273100) 1 2 2 Fault analysis and relay protection performa ...

  • 新能源微电网研究综述_孟明
  • ()文章编号:10073222017010017200---文献标志码:A中图分类号:TM727 新能源微电网研究综述 孟 明1,陈世超1,赵树军2,李振伟2,卢玉舟1 (71003:1.华北电力大学电气与电子工程学院,河北保定 0 )2.国网邯郸供电公司,河北邯郸 056001 Overviewo ...

  • 微电网简介
  • 微电网简介 目录 第一章 微电网定义.................................................. 2 第二章 微电网作用.................................................. 4 第三章 微电网技术........ ...

  • 电力系统的稳定性分析
  • 电力系统的稳定性分析 南京农业大学工学院 彭雪峰 向蝶 一. 什么是电力系统的稳定性,可靠性? 电力系统的任务是向用户提供源源不断.质量合格的电能.由于电力系统各种设备,包括发电机.变压器.输电线路.断路器等一次设备及与之配套的二次设备,都会发生不同类型的故障,从而影响电力系统正常运行和对用户正常供 ...

  • 超高速暂态方向继电器的研究
  • 第25卷第4期2005年2月 文章编号:0258培013(2005)04-0007.06 中国电机工程学报 Proceedingsof Vbl.25No.4Feb.2005@2005Chill.Soc.forElec.Eng tlleCsEE 中图分类号:1M77文献标识码:A学科分类号:470・4 ...

  • 非侵入式负荷监测系统的发展及应用
  • 非侵入式负荷监测系统的发展及应用 摘要 对电力系统而言,负荷监测具有重要意义.传统的负荷监测一般需要在每一个被监视负荷处加装传感器等硬件设备,这种侵入式监测方法在安装和维护方面需要花费大量的时间和金钱,也满足不了不断发展的电力系统的需要.为此,人们提出了非侵入式负荷监测系统,它只需要在电力入口处安装 ...