基于欧氏距离和余弦相似度特征选择的入侵检测模型

基 于欧 氏距离和余 弦相似度特征选择 的入侵检测模 型 

吴桂 玲

( 济大学 同 软件学院 天津市塘沽区市 政工程局)  

摘要 : 现今 , 数据挖掘技术 已经广泛用于各个领域, 得到社会各界的普遍  事实上 , 入侵检测系统还有一些不足 , 特别是误用检测对未知攻  关注。 在入侵检测系统中, 数据挖掘也 已 经成 为了数据采集的主要技术手段。 击不能进行有效 的防范。   支持 向量机、 神经 网络、 模式识 别、 专家系统  特征选择则是入侵检测 系统中数据挖掘 的关键 , 因为特征选择的好坏会直接 

等一些人工智能技术和数据挖掘 的应用 ,使得入侵检测系统得到大 

影响到 系统的检 测精度。 本文提出 了 基于 欧氏距离和余弦相似度 的特征选择  幅 改 善 。  

12 欧 氏距 离  _ 欧氏距离最多 的应用是对距离的测度。 大多情 况下 , 人们谈到距  率, 提高入侵检测性能。   离的时候 , 都会很自然 的想到欧氏距离。从数学的角度来讲, 欧氏距  关键 词: 入侵检测系统 数据挖掘 特征选择  离或欧式测度实际上就是两点间的距离。 』:  ,2 。… , 和点  点 4 ( X, , ‰)   0 引 言  ( ,  ,   )    , …, 之间的欧 氏距离定 义如式( ) 示。 1所   近年来 , 网络用户数量持续高速增长 , 全球大约有超过 1 4亿人 

的特征子集 , 为网络入侵检测建立模 型。同时 , 该方法能够有效地降低误报 

方法 。 这种 方法 很 容 易 实现 , 且 实 验 结果 表 明 , 方 法 能够 提 取 出一 个 完 备  而 该

在使用网络。 同时, 越来越 多的人们也遭 受着各种 网络安全问题 的威  ( B √  ) (  ) (一 ) … f  ) | ) (    一 : L 3  + 4 =  一 + , +Y   +  一   j 胁。入侵者利用计算机 网络系统 的漏洞和传统 网络安全技术 的不足  1 余 弦相 似 度  . 3 实施入侵行为 , 我们现在所用到的防火墙 、 杀毒软件、 信息加密、 网络  余弦相似度是测量两个 n维 向量 之间相似度 的一种 常见 方法 。   安全协议等技术 已经不能完全有效地保证计算机 网络 系统 的安全。   余弦相似度在多种领域都有所涉及, 如文本挖掘、 信息检索等。   入侵检测 系统能够监 听网络 ,并察觉网络入侵行为或有违网络安全  给 定 两 个 向量 A=  ,: 。… , 和 曰 (  2 3… ,2 )3   两  (   , , ‰) = y, 1 , 1    ,   Y   是   策 略 的行 为 , 网 络 异 常行 为 、 权 用 户 的越 权 行 为 和 恶 意 攻 击等 。 如 授   d 义为 :  

个 向量 之 间的 夹 角 , 么 两 个 向量 之 间 的 余弦 相 似 度 就定   p   S  那 因此 , 入侵检测技术作为对传统网络安全技术的弥补 , 到了社会各  得 界 的 广泛 重 视 。   s (   1 o 6 {B     B =c s ̄ .  4   C  D )   数据挖掘的成功 引入 , 大大提 高了入侵检测 系统 的检 测性能。 而  一   数据挖掘却极大地依赖于特征 的选择。一般使用机器学 习的方法进  行特征选择,特征选择技术就是为建立学 习模型选择原始数据的关  14 数 据 集  . 键特征子集。   本 文采 用 的数据 集 是 K D C ’9数 据集 ,它是 1 9 D   UP 9 9 8年  本文正是要利用欧氏距离和余弦相似度来进行特征选择 ,使得  D P AR A入侵 检测评估项 目中所选 用的数据特 征。这个项 目是由麻  入侵检测系统用较低维度 的样本特征代表更 多网络连接 的信息量 。   省理工学 院林 肯实验室和 美国国防部高 级研 究计划局 发起和进 行  1背景  目的是观察和评估入侵检测系统 的研究工作, 用一套标; 隹格式的  数据挖掘技术 的发 展使得 网络数据 的捕获和存取 变得更加简  的, 数据 来评估各种入侵检测 系统 的性能。1 9   9年 K 9 DD ( n wl g   Ko e e d 单、 有效 , 而如何为实际应用 系统将大量 的数据转换 为可用的信息数  Ds o ey i D tb s s ic v r n aa a e )竞赛 中在数据挖掘和入侵检 测方面的网     据成为了新 的挑战。   络 数 据 也 是采 用这 种 格 式 。 D P 评 估 项 目从 遵 循 上 述 要 点 的仿  AR A 数据挖掘一个 关键 的任务就 是根据决 策进 行特征 的提取与选  C DU   择。在文本分类、 网络信息采集等领域 , 许多研 究者都将降维技术 引 真网络环境 中了采集 9个星期的 T P MP格 式的网络连接数据,   其 中含 有 5 0万 条 用 于 训 练 的 T PI 接 记 录和 2 0万 条用 于 测  0 C/ P连 0 入到机器学 习和数据挖掘 中,而数据降维技术也往往会用到特征 的  试 的连 接 记 录 ( 个连 接大 约 1 0 ye    每 0 b ts o 选择。这样处理 不仅能够减 少特征数量 , 快速建立模型 , 而且还可以  此数据集将每一 条 T PI C/ P连接作 为一个样本 , 每一个样 本又都  帮助系统去除一些无 关信息、 冗余信息和噪声信息。 这就使我们能够  由 4 个特征给与描述 , 中包括基本属性 9个 , 1 其 内容属性 1 3个 , 流  建 立 更加 简 单 、 效 的 分 类模 型 , 高 分 类器 的 分类  n 。 有 提

I  ̄ 因此 , 键  -  ̄ 关 量属性 9个以及主机流量属性 1 O个 。表 1给出了网络连接记录 中   属性的选择不论是对完善分类器 , 还是对数据降维都是至关重要的。   4 维 属 性 特征 。 1   在本文 中, 了改进入侵检测的检测性 能 , 为 我们  表 1 网络 连 接 的 4 1维 属 性 特 征  将应用欧氏距离和余弦相似度进行特征选择。  

  I

(  2 )

11入 侵 检 测  .

本属性集 

内容属性集 

时间流量属性集 

主机流量 属性集 

现今主要有基于主机 的和基于 网络的两种形式  的入 侵 检 测 系统 。 在 基 于 网络 的 入 侵 检 测 系统 

1 h tC  0.o  

_ —

2 c un  3.o t C 

1  u   n m f ld IgisC 2 sv c un    1 ai e o n   4.r o tC

1   g  nD   l edi    2 og

2 s rorr t    5.e r ae C

_

( I S) , 统 对 从 网 络 中捕 获 的数 据 包 进 行 分析 , ND 中 系   会检测到企 图绕过防火墙侵入 系统内部 的数据包 , 4f g D 并  .l     a 1_ m c   nu 3 om p o i e   rm s d C  对其进行响应处理。而在基于主机 的入侵检 测系统    ro 4 h l   ( I S) , 统 是 通 过 单 个 主 机 上 日志 文件 或 者 日 5. F b esC  1  o t s elD  HD 中 系   S C yt   志数据库进行检测的。入侵检测技术主要有两种 : 异  yesC   S 5 te e     2  r r r 8 sv er or 6d t b t     1   U at m t d D .s 常检测和误用检测。   异常检 测通 过设定正常行为模式 的偏离值 来判  v 7 l dD    an   1  u 6 n m r tC oo    2   ame sr 9s 断是否有入侵发生。在这里 , 我们假定所 有的入侵行 

— — — _ — — — — —

一一 一~ 一 一 一

rt    a eC

 

r t    ae C

为和越权行为都 是偏离正常系统模式范围的。 异常检  me t  nC 测的优 点是 ,它能够检测到几乎所有来 自外部 的攻  9 uge tC   r n  击, 漏报率较低 ; 缺点就是 , 它对于来 自内部 的攻击却 

是 无能 为力 。 用检 测是 通 过 对 已知攻 击进 行 特 征 提  误 取 , 立模 型 , 行 匹配 判定 的。 误 用 检 测 的优 点 是 , 建 进   只 要出现攻 击特征库 里的行为 , 就判定 为入侵 , 误报 

8 wr ng fa   1 nu b   o   rg   7_ m erf e i l

 

3   i

sv a eC  0 df r rt f

— —

c e t nsC  rai   o 1 n m s el    8.u h lC S c es   i es   1 . m a c s fl C   nu 9

31 r  . v s

df o trtC 4   s— o trr rrt   i Lh s—ae   0d th s—er _aeC o

41ds h s sr   t ot v

— . — — —

r r r er o

_

ra   teC

2Onu   m o t ou d ub n  

c d  m s C 

21i h s I i  . S o t ognD 

22l g s lg nD   i ue t o i    s

— _ _

率较 低 ; 缺点就是 , 它不能够检测到新 的入侵行 为方  式或者未知的入侵。  

2   31

2 基于欧氏距离和余弦相似度的特征选择 

我 国电子商务 中信任 问题研 究综述 

余世 欣  巫孝 君 ( 成都理工大学工程 技术学院)  

摘要 : 近年来, 随着信息通信技术的不断突破 , 电子商务发展也进入 了黄 

d  

而 

A 

11 电子商务的内涵 由于网络本 身就是新生事物 , . 同时又 处于  金时期。但是, 电子商务中信任问题 已成 为制约电子商务发展的一个重大瓶  不 断 变化 的过 程 中 ,因此 目前 社 会 各界 对 电子 商务 (lcrnc Ee t i o   和  颈 。面对这一问题 , 多专家、 许 学者都做 了很 多的分析与研究 , 并提出 了一系  C mmec ) o re的定 义并未形成 共识 。由于学界 、 商界有各 自不 同的观  列 的解决方案、 措施及建议。 本文试图对其做一个系统 的总结 , 并指 出我国 目 察角度和不同的实践经验 ,   曰  因而在理解和定义 电子商务时有所差别,   前对 电子商务信任 问题研究存在的问题及今后 的研究方 向。   大 致 可 以概 括 为狭 义 的理 解和 广 义 的理 解 两 种。 义 的 电子 商 务 , 狭 指       一一 的 卜  关键词 : 电子商 务 信 任 研 究  通过 I en t I rn t 行 的在 线 销 售 式 电子 商务 。 它 是通 过 在  n re 或 n a e 进 t t O 引言  技术 上 、 能 上更 加 拓 展 了的 网 络一 国际 互 联 网 进行 的 , 更严 格 意  功   一 佘  从 电子商务是指利用 电信 网络进行 的商务活动。它是计算机信息  义上规范 的在线产品和劳务 的交易活动 。 广义的 电子商务 , 泛指运用  技术开发与运用的产物 ; 代表 了未来经 济发展的方 向; 是人类科技 、   现代 电子信息技术 , 以整个市场为范 围的商务活动。 在技术手段上不  经济、 文化发展结晶。由于商务网络

环境 大量地充斥着风险、 不确定  限定 于 国际 互 联 网 ,而是 泛指 一 切 与 数 字化 处理 有 关 的 电子信 息 技  性而 又 需 要相 互 依 赖 且 愈 加 复 杂 , 电子 商 务信 任 问题 已成 为 决 定 网  术、 网络技术以及其他交换、 获得数据的技术 。 在商务 范围方面 , 也不  上 交 易成 功 与否 的关 键 因 素 。 电子 商 务信 任 问题 之 所 以显 得 重 要 , 是  仅 限于 通 过 互 联 网 进 行 的在 线 式 产 品和 劳务 的交 易 活 动 , 它还 包 含  因为电子商务 自身所具有的特征决定 了其面临的不确定性和风险性  整个 市 场 一 活 动 相 关 的若 干 方面 , 产 品 设 计 与 生产 、 品和 劳 务 的  如 产 与传统商务相 比, 现为程度 更高、 围更广 、 表 范 情况 更复 杂。这是 因   广告促销 、 易双 方的磋商契约 、 交 产品 的运送 、 货款结算 以及售后服  为: 第一 , 与传统商务一样 , 由于经济行为者 的决策 失误和容 易导致  务等 。   机会主义行 为的买卖双方信 息的不对称分布 ,使得 电子商务易受到  1 信任的内涵 近几年来 , . 2 信任的含义一直在各种情境之下被  交易本身特定 的不确定性和 风险性 的影响。 第二 , 电子商务受交易者  思考 。 由于涉及和研究信任现象的领域较 多, 因而存在许多有关信任  所无法控制的外在 因素的影Ⅱ ,交易所依赖的技术 系统平 台的不确  向 的观 点 。一 类 是 从社 会学 和 伦 理 学 的 角度 进 行 定 义 。比如 , 信 任 定  将 定性和风险性等 ,这种风险是 买卖双 方即使签定协议或合同都难 以  义为“ 从道德上对合理行为的预期 , 即以道德原则为基础 的道德上的  避免的。   正确决策和行动” 。另外 , 从经济学的角度来看 , 信任是指“ 经济交易  基于 上述 原 因 , 电子商 务 信 任 研 究 作 为一 个 单 独 的 研 究 内容 被  的一 方认 为另 一 方 是 可靠 的 , 能够 履 行 自 己的 承诺 。 ” 并   提 了出来 , 对它的研 究也越来越引起有 关学者 的重视 , 本文试图对此  总 的来 说 , 以将 信 任概 括 为 : 可 经济 交 易 的一 方认 为另 一 方 是 可  领域的国内外研究状况加以梳理。   靠 的并且能够履行 自己的承诺。 信任是经济交易活动 中的核心因素 ,   1 概念  

( 接 第 2 1页 ) 上 3   由于 K D C ’9数据集过于庞大 ,我们在 其中随机分别选  D   UP 9 定义 K D C P’9数据集 中数据 的 4 D  U 9 1维特 征分别 为 A , ,      00 0 0 0数量级的样本作为训练集。 另外 , 将支持向量机  3…, j

, A 1判别标 示 向量 为 B 4 。令 A={ , 码,   ) (  ≤  择 1 0 0和 1 0 0    u物, …, √ 1 下面   4 )曰 ( Y,3 1 , = Y , Y,… , ) 2   ,其 中 n为参 加 训练 的样 本 个数 ,i   作 为 本 次 实 验 的学 习机 器 , 给 出 各 种 实验 结 果 。 Y∈

{ ,1J1 1 一 , 表示该连接记录正 常, 1 一 则表示该记录为异常。   于  是  ,  和  4 的  欧  氏  距  离  为  :   { A , ,2  B)d( B)… , ( , )其中  如下表示 : d(  B)d( , ,3 3 , 以  A A, A 曰) ,  

(   3) 弦  相  似  度  为  { m1 , ,r2  B) i 3 3B) ,i4 A 1 )其 中  s ( B) i ( 2 1r (     s 1  , , i A1 s A, s A 7 e e m ( 4 B)

表 3 实 验 结果 对 比 

(  

∑( j      )

B   ) = 接

(   4)

实验结果对 比分析 : 从表 3可 以看 出 , 不论是小规模 训练集检  测还是大规模训练集检测 , 经过 , 训练时 间都大 幅降低 , 而且都低于  原来 的三分之一 , 另外 , 在检测率上升 的基础上 , 检测时 间也 有所下 

降。  

通过实验结果的对比 , 我们认为 , 经过基于欧 氏距离和余弦相似  分别得到欧氏距离和余弦相似度 以后 ,我们将其按 由高到低 的  度 特征 处理 之后 ,入侵检测 系统的实时性和检测性能都得到了普遍  顺序进行排序处理 。选择欧 氏距 离和余弦相似度综合指数较高的属    性作为检测特征。在这里 , 我们一般要在系统中设定一个阈值 , 综合  提 高 。 4 结 论  指 数高 于 这 个 阈值 的 , 我们 保 留其 特 征 , 则 , 将 其 舍 弃 。 否 就   基于欧 氏距离和余弦相似度 的特征选择方法 ,是通过计 算训练  3 实验 验 证  集欧氏距离和余弦相似度并对其排序 , 根据阈值 设定得到 的特征。 经  通 过 对 实验 结 果 的分 析 , 该 方 法 进 行评 价 。 对   过实验验证 ,基于该特征选择 方法 的入侵检 测系统具有更高的检测  在本实验中 ,我们通过对实验数据欧 氏距离和余弦相似度的计  算并排序 , 根据系统设定 的阈值 , 选择出参 加训 练的数据特征 , 1  精度和 实时性能 ,这也进一步体现 了基于欧氏距离和余弦相似度特  共 9 征选择 方法 的优越性和 可行性。   维。特征如表 2所示。  

表 2 实验选择特征 

I   D tn mai   o

dtb ts s  y e   6  

p oo o 1   r tc l ̄ ) e

Fa  lg

-  

S tie e,   ,c 。

lg d l o ge jI  

4  

8  

q l   ,  州 e l C '

参考文献 :   … 曹 元大 入侵检测技术【 北京 人 民邮 电出版社 ,0 7 M】 20 .  

【】 2边肇祺. 模式识别【 北京 : M】 清华大学出版社 ,0 0 20 .   【】 3刘文涛 网络安全开发包详解f  E : M】 京 电子工业出版社 , 0 5  20.

(t s  r t  h  r ae

9  

、 s r O f   e r i 讲e

l  0

l J  

l  :

[ ] u b i  Anrt F a ue ee t n sn  e cie n i a c   4S e s g n i ,“ e t r s l i  u ig u l a  ds n e u co d t

a d c sn  si i r y f r itu i  de e t   m o l P o ee igs 一 n   o ie m l i   o  n r son at tci on de”, r c dn  

2 9  t 00  1  Asa  Co f r n  o  It lge t nor a in n  Daa as   s in n e e ce n n el n  If m to  a d i tb e Sy t m s se ,ACI   00 I DS 2 9,P 8   6—91 0   .2 09

l  3

n =f  o t  I l h s  l

l  4

d t h t ir s  os f   d s y ae t-r t 

1  5

d t h s  rt s  o t 、   ( f   s  a e h r ho t r t 

l  6

ds o t c Y I t s s ro    h

l  ’

d t ho t r s  s  s  

1  8

t ho t e l l   s  l lO  '

rt  ae

1  9

(时 h s  v 【 ot  

r I I  ̄t  eIO l e t

2 2 3  

基 于欧 氏距离和余 弦相似度特征选择 的入侵检测模 型 

吴桂 玲

( 济大学 同 软件学院 天津市塘沽区市 政工程局)  

摘要 : 现今 , 数据挖掘技术 已经广泛用于各个领域, 得到社会各界的普遍  事实上 , 入侵检测系统还有一些不足 , 特别是误用检测对未知攻  关注。 在入侵检测系统中, 数据挖掘也 已 经成 为了数据采集的主要技术手段。 击不能进行有效 的防范。   支持 向量机、 神经 网络、 模式识 别、 专家系统  特征选择则是入侵检测 系统中数据挖掘 的关键 , 因为特征选择的好坏会直接 

等一些人工智能技术和数据挖掘 的应用 ,使得入侵检测系统得到大 

影响到 系统的检 测精度。 本文提出 了 基于 欧氏距离和余弦相似度 的特征选择  幅 改 善 。  

12 欧 氏距 离  _ 欧氏距离最多 的应用是对距离的测度。 大多情 况下 , 人们谈到距  率, 提高入侵检测性能。   离的时候 , 都会很自然 的想到欧氏距离。从数学的角度来讲, 欧氏距  关键 词: 入侵检测系统 数据挖掘 特征选择  离或欧式测度实际上就是两点间的距离。 』:  ,2 。… , 和点  点 4 ( X, , ‰)   0 引 言  ( ,  ,   )    , …, 之间的欧 氏距离定 义如式( ) 示。 1所   近年来 , 网络用户数量持续高速增长 , 全球大约有超过 1 4亿人 

的特征子集 , 为网络入侵检测建立模 型。同时 , 该方法能够有效地降低误报 

方法 。 这种 方法 很 容 易 实现 , 且 实 验 结果 表 明 , 方 法 能够 提 取 出一 个 完 备  而 该

在使用网络。 同时, 越来越 多的人们也遭 受着各种 网络安全问题 的威  ( B √  ) (  ) (一 ) … f  ) | ) (    一 : L 3  + 4 =  一 + , +Y   +  一   j 胁。入侵者利用计算机 网络系统 的漏洞和传统 网络安全技术 的不足  1 余 弦相 似 度  . 3 实施入侵行为 , 我们现在所用到的防火墙 、 杀毒软件、 信息加密、 网络  余弦相似度是测量两个 n维 向量 之间相似度 的一种 常见 方法 。   安全协议等技术 已经不能完全有效地保证计算机 网络 系统 的安全。   余弦相似度在多种领域都有所涉及, 如文本挖掘、 信息检索等。   入侵检测 系统能够监 听网络 ,并察觉网络入侵行为或有违网络安全  给 定 两 个 向量 A=  ,: 。… , 和 曰 (  2 3… ,2 )3   两  (   , , ‰) = y, 1 , 1    ,   Y   是   策 略 的行 为 , 网 络 异 常行 为 、 权 用 户 的越 权 行 为 和 恶 意 攻 击等 。 如 授   d 义为 :  

个 向量 之 间的 夹 角 , 么 两 个 向量 之 间 的 余弦 相 似 度 就定   p   S  那 因此 , 入侵检测技术作为对传统网络安全技术的弥补 , 到了社会各  得 界 的 广泛 重 视 。   s (   1 o 6 {B     B =c s ̄ .  4   C  D )   数据挖掘的成功 引入 , 大大提 高了入侵检测 系统 的检 测性能。 而  一   数据挖掘却极大地依赖于特征 的选择。一般使用机器学 习的方法进  行特征选择,特征选择技术就是为建立学 习模型选择原始数据的关  14 数 据 集  . 键特征子集。   本 文采 用 的数据 集 是 K D C ’9数 据集 ,它是 1 9 D   UP 9 9 8年  本文正是要利用欧氏距离和余弦相似度来进行特征选择 ,使得  D P AR A入侵 检测评估项 目中所选 用的数据特 征。这个项 目是由麻  入侵检测系统用较低维度 的样本特征代表更 多网络连接 的信息量 。   省理工学 院林 肯实验室和 美国国防部高 级研 究计划局 发起和进 行  1背景  目的是观察和评估入侵检测系统 的研究工作, 用一套标; 隹格式的  数据挖掘技术 的发 展使得 网络数据 的捕获和存取 变得更加简  的, 数据 来评估各种入侵检测 系统 的性能。1 9   9年 K 9 DD ( n wl g   Ko e e d 单、 有效 , 而如何为实际应用 系统将大量 的数据转换 为可用的信息数  Ds o ey i D tb s s ic v r n aa a e )竞赛 中在数据挖掘和入侵检 测方面的网     据成为了新 的挑战。   络 数 据 也 是采 用这 种 格 式 。 D P 评 估 项 目从 遵 循 上 述 要 点 的仿  AR A 数据挖掘一个 关键 的任务就 是根据决 策进 行特征 的提取与选  C DU   择。在文本分类、 网络信息采集等领域 , 许多研 究者都将降维技术 引 真网络环境 中了采集 9个星期的 T P MP格 式的网络连接数据,   其 中含 有 5 0万 条 用 于 训 练 的 T PI 接 记 录和 2 0万 条用 于 测  0 C/ P连 0 入到机器学 习和数据挖掘 中,而数据降维技术也往往会用到特征 的  试 的连 接 记 录 ( 个连 接大 约 1 0 ye    每 0 b ts o 选择。这样处理 不仅能够减 少特征数量 , 快速建立模型 , 而且还可以  此数据集将每一 条 T PI C/ P连接作 为一个样本 , 每一个样 本又都  帮助系统去除一些无 关信息、 冗余信息和噪声信息。 这就使我们能够  由 4 个特征给与描述 , 中包括基本属性 9个 , 1 其 内容属性 1 3个 , 流  建 立 更加 简 单 、 效 的 分 类模 型 , 高 分 类器 的 分类  n 。 有 提

I  ̄ 因此 , 键  -  ̄ 关 量属性 9个以及主机流量属性 1 O个 。表 1给出了网络连接记录 中   属性的选择不论是对完善分类器 , 还是对数据降维都是至关重要的。   4 维 属 性 特征 。 1   在本文 中, 了改进入侵检测的检测性 能 , 为 我们  表 1 网络 连 接 的 4 1维 属 性 特 征  将应用欧氏距离和余弦相似度进行特征选择。  

  I

(  2 )

11入 侵 检 测  .

本属性集 

内容属性集 

时间流量属性集 

主机流量 属性集 

现今主要有基于主机 的和基于 网络的两种形式  的入 侵 检 测 系统 。 在 基 于 网络 的 入 侵 检 测 系统 

1 h tC  0.o  

_ —

2 c un  3.o t C 

1  u   n m f ld IgisC 2 sv c un    1 ai e o n   4.r o tC

1   g  nD   l edi    2 og

2 s rorr t    5.e r ae C

_

( I S) , 统 对 从 网 络 中捕 获 的数 据 包 进 行 分析 , ND 中 系   会检测到企 图绕过防火墙侵入 系统内部 的数据包 , 4f g D 并  .l     a 1_ m c   nu 3 om p o i e   rm s d C  对其进行响应处理。而在基于主机 的入侵检 测系统    ro 4 h l   ( I S) , 统 是 通 过 单 个 主 机 上 日志 文件 或 者 日 5. F b esC  1  o t s elD  HD 中 系   S C yt   志数据库进行检测的。入侵检测技术主要有两种 : 异  yesC   S 5 te e     2  r r r 8 sv er or 6d t b t     1   U at m t d D .s 常检测和误用检测。   异常检 测通 过设定正常行为模式 的偏离值 来判  v 7 l dD    an   1  u 6 n m r tC oo    2   ame sr 9s 断是否有入侵发生。在这里 , 我们假定所 有的入侵行 

— — — _ — — — — —

一一 一~ 一 一 一

rt    a eC

 

r t    ae C

为和越权行为都 是偏离正常系统模式范围的。 异常检  me t  nC 测的优 点是 ,它能够检测到几乎所有来 自外部 的攻  9 uge tC   r n  击, 漏报率较低 ; 缺点就是 , 它对于来 自内部 的攻击却 

是 无能 为力 。 用检 测是 通 过 对 已知攻 击进 行 特 征 提  误 取 , 立模 型 , 行 匹配 判定 的。 误 用 检 测 的优 点 是 , 建 进   只 要出现攻 击特征库 里的行为 , 就判定 为入侵 , 误报 

8 wr ng fa   1 nu b   o   rg   7_ m erf e i l

 

3   i

sv a eC  0 df r rt f

— —

c e t nsC  rai   o 1 n m s el    8.u h lC S c es   i es   1 . m a c s fl C   nu 9

31 r  . v s

df o trtC 4   s— o trr rrt   i Lh s—ae   0d th s—er _aeC o

41ds h s sr   t ot v

— . — — —

r r r er o

_

ra   teC

2Onu   m o t ou d ub n  

c d  m s C 

21i h s I i  . S o t ognD 

22l g s lg nD   i ue t o i    s

— _ _

率较 低 ; 缺点就是 , 它不能够检测到新 的入侵行 为方  式或者未知的入侵。  

2   31

2 基于欧氏距离和余弦相似度的特征选择 

我 国电子商务 中信任 问题研 究综述 

余世 欣  巫孝 君 ( 成都理工大学工程 技术学院)  

摘要 : 近年来, 随着信息通信技术的不断突破 , 电子商务发展也进入 了黄 

d  

而 

A 

11 电子商务的内涵 由于网络本 身就是新生事物 , . 同时又 处于  金时期。但是, 电子商务中信任问题 已成 为制约电子商务发展的一个重大瓶  不 断 变化 的过 程 中 ,因此 目前 社 会 各界 对 电子 商务 (lcrnc Ee t i o   和  颈 。面对这一问题 , 多专家、 许 学者都做 了很 多的分析与研究 , 并提出 了一系  C mmec ) o re的定 义并未形成 共识 。由于学界 、 商界有各 自不 同的观  列 的解决方案、 措施及建议。 本文试图对其做一个系统 的总结 , 并指 出我国 目 察角度和不同的实践经验 ,   曰  因而在理解和定义 电子商务时有所差别,   前对 电子商务信任 问题研究存在的问题及今后 的研究方 向。   大 致 可 以概 括 为狭 义 的理 解和 广 义 的理 解 两 种。 义 的 电子 商 务 , 狭 指       一一 的 卜  关键词 : 电子商 务 信 任 研 究  通过 I en t I rn t 行 的在 线 销 售 式 电子 商务 。 它 是通 过 在  n re 或 n a e 进 t t O 引言  技术 上 、 能 上更 加 拓 展 了的 网 络一 国际 互 联 网 进行 的 , 更严 格 意  功   一 佘  从 电子商务是指利用 电信 网络进行 的商务活动。它是计算机信息  义上规范 的在线产品和劳务 的交易活动 。 广义的 电子商务 , 泛指运用  技术开发与运用的产物 ; 代表 了未来经 济发展的方 向; 是人类科技 、   现代 电子信息技术 , 以整个市场为范 围的商务活动。 在技术手段上不  经济、 文化发展结晶。由于商务网络

环境 大量地充斥着风险、 不确定  限定 于 国际 互 联 网 ,而是 泛指 一 切 与 数 字化 处理 有 关 的 电子信 息 技  性而 又 需 要相 互 依 赖 且 愈 加 复 杂 , 电子 商 务信 任 问题 已成 为 决 定 网  术、 网络技术以及其他交换、 获得数据的技术 。 在商务 范围方面 , 也不  上 交 易成 功 与否 的关 键 因 素 。 电子 商 务信 任 问题 之 所 以显 得 重 要 , 是  仅 限于 通 过 互 联 网 进 行 的在 线 式 产 品和 劳务 的交 易 活 动 , 它还 包 含  因为电子商务 自身所具有的特征决定 了其面临的不确定性和风险性  整个 市 场 一 活 动 相 关 的若 干 方面 , 产 品 设 计 与 生产 、 品和 劳 务 的  如 产 与传统商务相 比, 现为程度 更高、 围更广 、 表 范 情况 更复 杂。这是 因   广告促销 、 易双 方的磋商契约 、 交 产品 的运送 、 货款结算 以及售后服  为: 第一 , 与传统商务一样 , 由于经济行为者 的决策 失误和容 易导致  务等 。   机会主义行 为的买卖双方信 息的不对称分布 ,使得 电子商务易受到  1 信任的内涵 近几年来 , . 2 信任的含义一直在各种情境之下被  交易本身特定 的不确定性和 风险性 的影响。 第二 , 电子商务受交易者  思考 。 由于涉及和研究信任现象的领域较 多, 因而存在许多有关信任  所无法控制的外在 因素的影Ⅱ ,交易所依赖的技术 系统平 台的不确  向 的观 点 。一 类 是 从社 会学 和 伦 理 学 的 角度 进 行 定 义 。比如 , 信 任 定  将 定性和风险性等 ,这种风险是 买卖双 方即使签定协议或合同都难 以  义为“ 从道德上对合理行为的预期 , 即以道德原则为基础 的道德上的  避免的。   正确决策和行动” 。另外 , 从经济学的角度来看 , 信任是指“ 经济交易  基于 上述 原 因 , 电子商 务 信 任 研 究 作 为一 个 单 独 的 研 究 内容 被  的一 方认 为另 一 方 是 可靠 的 , 能够 履 行 自 己的 承诺 。 ” 并   提 了出来 , 对它的研 究也越来越引起有 关学者 的重视 , 本文试图对此  总 的来 说 , 以将 信 任概 括 为 : 可 经济 交 易 的一 方认 为另 一 方 是 可  领域的国内外研究状况加以梳理。   靠 的并且能够履行 自己的承诺。 信任是经济交易活动 中的核心因素 ,   1 概念  

( 接 第 2 1页 ) 上 3   由于 K D C ’9数据集过于庞大 ,我们在 其中随机分别选  D   UP 9 定义 K D C P’9数据集 中数据 的 4 D  U 9 1维特 征分别 为 A , ,      00 0 0 0数量级的样本作为训练集。 另外 , 将支持向量机  3…, j

, A 1判别标 示 向量 为 B 4 。令 A={ , 码,   ) (  ≤  择 1 0 0和 1 0 0    u物, …, √ 1 下面   4 )曰 ( Y,3 1 , = Y , Y,… , ) 2   ,其 中 n为参 加 训练 的样 本 个数 ,i   作 为 本 次 实 验 的学 习机 器 , 给 出 各 种 实验 结 果 。 Y∈

{ ,1J1 1 一 , 表示该连接记录正 常, 1 一 则表示该记录为异常。   于  是  ,  和  4 的  欧  氏  距  离  为  :   { A , ,2  B)d( B)… , ( , )其中  如下表示 : d(  B)d( , ,3 3 , 以  A A, A 曰) ,  

(   3) 弦  相  似  度  为  { m1 , ,r2  B) i 3 3B) ,i4 A 1 )其 中  s ( B) i ( 2 1r (     s 1  , , i A1 s A, s A 7 e e m ( 4 B)

表 3 实 验 结果 对 比 

(  

∑( j      )

B   ) = 接

(   4)

实验结果对 比分析 : 从表 3可 以看 出 , 不论是小规模 训练集检  测还是大规模训练集检测 , 经过 , 训练时 间都大 幅降低 , 而且都低于  原来 的三分之一 , 另外 , 在检测率上升 的基础上 , 检测时 间也 有所下 

降。  

通过实验结果的对比 , 我们认为 , 经过基于欧 氏距离和余弦相似  分别得到欧氏距离和余弦相似度 以后 ,我们将其按 由高到低 的  度 特征 处理 之后 ,入侵检测 系统的实时性和检测性能都得到了普遍  顺序进行排序处理 。选择欧 氏距 离和余弦相似度综合指数较高的属    性作为检测特征。在这里 , 我们一般要在系统中设定一个阈值 , 综合  提 高 。 4 结 论  指 数高 于 这 个 阈值 的 , 我们 保 留其 特 征 , 则 , 将 其 舍 弃 。 否 就   基于欧 氏距离和余弦相似度 的特征选择方法 ,是通过计 算训练  3 实验 验 证  集欧氏距离和余弦相似度并对其排序 , 根据阈值 设定得到 的特征。 经  通 过 对 实验 结 果 的分 析 , 该 方 法 进 行评 价 。 对   过实验验证 ,基于该特征选择 方法 的入侵检 测系统具有更高的检测  在本实验中 ,我们通过对实验数据欧 氏距离和余弦相似度的计  算并排序 , 根据系统设定 的阈值 , 选择出参 加训 练的数据特征 , 1  精度和 实时性能 ,这也进一步体现 了基于欧氏距离和余弦相似度特  共 9 征选择 方法 的优越性和 可行性。   维。特征如表 2所示。  

表 2 实验选择特征 

I   D tn mai   o

dtb ts s  y e   6  

p oo o 1   r tc l ̄ ) e

Fa  lg

-  

S tie e,   ,c 。

lg d l o ge jI  

4  

8  

q l   ,  州 e l C '

参考文献 :   … 曹 元大 入侵检测技术【 北京 人 民邮 电出版社 ,0 7 M】 20 .  

【】 2边肇祺. 模式识别【 北京 : M】 清华大学出版社 ,0 0 20 .   【】 3刘文涛 网络安全开发包详解f  E : M】 京 电子工业出版社 , 0 5  20.

(t s  r t  h  r ae

9  

、 s r O f   e r i 讲e

l  0

l J  

l  :

[ ] u b i  Anrt F a ue ee t n sn  e cie n i a c   4S e s g n i ,“ e t r s l i  u ig u l a  ds n e u co d t

a d c sn  si i r y f r itu i  de e t   m o l P o ee igs 一 n   o ie m l i   o  n r son at tci on de”, r c dn  

2 9  t 00  1  Asa  Co f r n  o  It lge t nor a in n  Daa as   s in n e e ce n n el n  If m to  a d i tb e Sy t m s se ,ACI   00 I DS 2 9,P 8   6—91 0   .2 09

l  3

n =f  o t  I l h s  l

l  4

d t h t ir s  os f   d s y ae t-r t 

1  5

d t h s  rt s  o t 、   ( f   s  a e h r ho t r t 

l  6

ds o t c Y I t s s ro    h

l  ’

d t ho t r s  s  s  

1  8

t ho t e l l   s  l lO  '

rt  ae

1  9

(时 h s  v 【 ot  

r I I  ̄t  eIO l e t

2 2 3  


相关内容

  • 人教版高中数学教材最新目录
  • 人教版普通高中课程标准实验教科书 数学 1.3 算法案例 必修一 第一章 集合与函数概念 1.1 集合 1.2 函数及其表示 1.3 函数的基本性质 第二章 基本初等函数(Ⅰ) 2.1 指数函数 2.2 对数函数 2.3 幂函数 第三章 函数的应用 3.1 函数与方程 3.2 函数模型及其应用 第二 ...

  • 人教版高中数学目录
  • 新课标A 版 必修1--5 选修1-1 ,1-2 选修2-1 ,2-2,2-3 选修3-1,3-3,3-4 选修4-1,4-2,4-4,4-5,4-6,4-7,4-9 必修1 第一章 集合与函数概念 1.1 集合 1.2 函数及其表示 1.3 函数的基本性质 实习作业 小结 复习参考题 第二章 基本 ...

  • 人教版高中数学必修选修目录
  • 必修1 第一章 集合与函数概念 1.1 集合 阅读与思考 集合中元素的个数 1.2 函数及其表示 阅读与思考 函数概念的发展历程 1.3 函数的基本性质 信息技术应用 用计算机绘制函数图象 实习作业 小结 第二章 基本初等函数(Ⅰ) 2.1 指数函数 信息技术应用 借助信息技术探究指数函数的性质 2 ...

  • 数据的多流形结构分析
  • (由组委会填写) 第十二届"中关村青联杯"全国研究生 数学建模竞赛 (由组委会填写) 第十二届"中关村青联杯"全国研究生 数学建模竞赛 题 目 数据的多流形结构分析 摘 要 在这个信息爆炸的时代,海量的数据不断产生,迫切需要对这些大数据进行有效的分析,以至数据 ...

  • 基于投影寻踪方法的模糊综合估计与聚类的工程项目风险评估
  • Computer Science and Application 计算机科学与应用, 2011, 1, 63-68 doi:10.4236/csa.2011.12013 Published Online September 2011 (http://www.hanspub.org/journal/c ...

  • 聚类分析新
  • 聚类分析 一. 二. 三. 四. 五. 聚类产生的背景 聚类分析中常用的一些方法 产生聚类的依据 聚类常用的八种距离及简单对比 例题 第一节 聚类分析产生的背景.方法及聚类依据 聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类.随着生产技术和科学的发展,人类的认识不断加深 ...

  • 人脸识别方法的综述与展望
  • 计算机与数字工程 第33卷24 人脸识别方法的综述与展望 艾英山 张德贤 (河南工业大学机电工程系 郑州 450052) Ξ 摘 要 综述了人脸识别理论的概念和研究现状, , 最后对人脸识别研究中的有关问题提出了我们的看法. 关键词:人脸自动识别 面部特征提取中图分类号:TP391. 41 for ...

  • 基于矩阵划分和兴趣方差的协同过滤算法
  • 第25卷第1期2006年2月 情报学报 V01.25.№1 February.2006 基于矩阵划分和兴趣方差的协同过滤算法" 潘红艳林鸿飞 赵 晶 (大连理工大学计算机科学与工程系,大连116024) 摘要 数据稀疏性是协同过滤系统面临的一个巨大挑战.本文提出了一种新的推荐算法--基于矩 ...

  • 聚类分析法
  • 聚类分析 聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程.它是一种重要的人类行为.聚类分析的目标就是在相似的基础上收集数据来分类.聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学.在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不 ...