基 于欧 氏距离和余 弦相似度特征选择 的入侵检测模 型
吴桂 玲
’
( 济大学 同 软件学院 天津市塘沽区市 政工程局)
摘要 : 现今 , 数据挖掘技术 已经广泛用于各个领域, 得到社会各界的普遍 事实上 , 入侵检测系统还有一些不足 , 特别是误用检测对未知攻 关注。 在入侵检测系统中, 数据挖掘也 已 经成 为了数据采集的主要技术手段。 击不能进行有效 的防范。 支持 向量机、 神经 网络、 模式识 别、 专家系统 特征选择则是入侵检测 系统中数据挖掘 的关键 , 因为特征选择的好坏会直接
等一些人工智能技术和数据挖掘 的应用 ,使得入侵检测系统得到大
影响到 系统的检 测精度。 本文提出 了 基于 欧氏距离和余弦相似度 的特征选择 幅 改 善 。
12 欧 氏距 离 _ 欧氏距离最多 的应用是对距离的测度。 大多情 况下 , 人们谈到距 率, 提高入侵检测性能。 离的时候 , 都会很自然 的想到欧氏距离。从数学的角度来讲, 欧氏距 关键 词: 入侵检测系统 数据挖掘 特征选择 离或欧式测度实际上就是两点间的距离。 』: ,2 。… , 和点 点 4 ( X, , ‰) 0 引 言 ( , , ) , …, 之间的欧 氏距离定 义如式( ) 示。 1所 近年来 , 网络用户数量持续高速增长 , 全球大约有超过 1 4亿人
的特征子集 , 为网络入侵检测建立模 型。同时 , 该方法能够有效地降低误报
=
方法 。 这种 方法 很 容 易 实现 , 且 实 验 结果 表 明 , 方 法 能够 提 取 出一 个 完 备 而 该
在使用网络。 同时, 越来越 多的人们也遭 受着各种 网络安全问题 的威 ( B √ ) ( ) (一 ) … f ) | ) ( 一 : L 3 + 4 = 一 + , +Y + 一 j 胁。入侵者利用计算机 网络系统 的漏洞和传统 网络安全技术 的不足 1 余 弦相 似 度 . 3 实施入侵行为 , 我们现在所用到的防火墙 、 杀毒软件、 信息加密、 网络 余弦相似度是测量两个 n维 向量 之间相似度 的一种 常见 方法 。 安全协议等技术 已经不能完全有效地保证计算机 网络 系统 的安全。 余弦相似度在多种领域都有所涉及, 如文本挖掘、 信息检索等。 入侵检测 系统能够监 听网络 ,并察觉网络入侵行为或有违网络安全 给 定 两 个 向量 A= ,: 。… , 和 曰 ( 2 3… ,2 )3 两 ( , , ‰) = y, 1 , 1 , Y 是 策 略 的行 为 , 网 络 异 常行 为 、 权 用 户 的越 权 行 为 和 恶 意 攻 击等 。 如 授 d 义为 :
个 向量 之 间的 夹 角 , 么 两 个 向量 之 间 的 余弦 相 似 度 就定 p S 那 因此 , 入侵检测技术作为对传统网络安全技术的弥补 , 到了社会各 得 界 的 广泛 重 视 。 s ( 1 o 6 {B B =c s ̄ . 4 C D ) 数据挖掘的成功 引入 , 大大提 高了入侵检测 系统 的检 测性能。 而 一 数据挖掘却极大地依赖于特征 的选择。一般使用机器学 习的方法进 行特征选择,特征选择技术就是为建立学 习模型选择原始数据的关 14 数 据 集 . 键特征子集。 本 文采 用 的数据 集 是 K D C ’9数 据集 ,它是 1 9 D UP 9 9 8年 本文正是要利用欧氏距离和余弦相似度来进行特征选择 ,使得 D P AR A入侵 检测评估项 目中所选 用的数据特 征。这个项 目是由麻 入侵检测系统用较低维度 的样本特征代表更 多网络连接 的信息量 。 省理工学 院林 肯实验室和 美国国防部高 级研 究计划局 发起和进 行 1背景 目的是观察和评估入侵检测系统 的研究工作, 用一套标; 隹格式的 数据挖掘技术 的发 展使得 网络数据 的捕获和存取 变得更加简 的, 数据 来评估各种入侵检测 系统 的性能。1 9 9年 K 9 DD ( n wl g Ko e e d 单、 有效 , 而如何为实际应用 系统将大量 的数据转换 为可用的信息数 Ds o ey i D tb s s ic v r n aa a e )竞赛 中在数据挖掘和入侵检 测方面的网 据成为了新 的挑战。 络 数 据 也 是采 用这 种 格 式 。 D P 评 估 项 目从 遵 循 上 述 要 点 的仿 AR A 数据挖掘一个 关键 的任务就 是根据决 策进 行特征 的提取与选 C DU 择。在文本分类、 网络信息采集等领域 , 许多研 究者都将降维技术 引 真网络环境 中了采集 9个星期的 T P MP格 式的网络连接数据, 其 中含 有 5 0万 条 用 于 训 练 的 T PI 接 记 录和 2 0万 条用 于 测 0 C/ P连 0 入到机器学 习和数据挖掘 中,而数据降维技术也往往会用到特征 的 试 的连 接 记 录 ( 个连 接大 约 1 0 ye 每 0 b ts o 选择。这样处理 不仅能够减 少特征数量 , 快速建立模型 , 而且还可以 此数据集将每一 条 T PI C/ P连接作 为一个样本 , 每一个样 本又都 帮助系统去除一些无 关信息、 冗余信息和噪声信息。 这就使我们能够 由 4 个特征给与描述 , 中包括基本属性 9个 , 1 其 内容属性 1 3个 , 流 建 立 更加 简 单 、 效 的 分 类模 型 , 高 分 类器 的 分类 n 。 有 提
I  ̄ 因此 , 键 -  ̄ 关 量属性 9个以及主机流量属性 1 O个 。表 1给出了网络连接记录 中 属性的选择不论是对完善分类器 , 还是对数据降维都是至关重要的。 4 维 属 性 特征 。 1 在本文 中, 了改进入侵检测的检测性 能 , 为 我们 表 1 网络 连 接 的 4 1维 属 性 特 征 将应用欧氏距离和余弦相似度进行特征选择。
I
( 2 )
11入 侵 检 测 .
本属性集
内容属性集
时间流量属性集
主机流量 属性集
现今主要有基于主机 的和基于 网络的两种形式 的入 侵 检 测 系统 。 在 基 于 网络 的 入 侵 检 测 系统
1 h tC 0.o
_ —
2 c un 3.o t C
—
1 u n m f ld IgisC 2 sv c un 1 ai e o n 4.r o tC
1 g nD l edi 2 og
2 s rorr t 5.e r ae C
_
( I S) , 统 对 从 网 络 中捕 获 的数 据 包 进 行 分析 , ND 中 系 会检测到企 图绕过防火墙侵入 系统内部 的数据包 , 4f g D 并 .l a 1_ m c nu 3 om p o i e rm s d C 对其进行响应处理。而在基于主机 的入侵检 测系统 ro 4 h l ( I S) , 统 是 通 过 单 个 主 机 上 日志 文件 或 者 日 5. F b esC 1 o t s elD HD 中 系 S C yt 志数据库进行检测的。入侵检测技术主要有两种 : 异 yesC S 5 te e 2 r r r 8 sv er or 6d t b t 1 U at m t d D .s 常检测和误用检测。 异常检 测通 过设定正常行为模式 的偏离值 来判 v 7 l dD an 1 u 6 n m r tC oo 2 ame sr 9s 断是否有入侵发生。在这里 , 我们假定所 有的入侵行
— — — _ — — — — —
一一 一~ 一 一 一
.
rt a eC
—
r t ae C
为和越权行为都 是偏离正常系统模式范围的。 异常检 me t nC 测的优 点是 ,它能够检测到几乎所有来 自外部 的攻 9 uge tC r n 击, 漏报率较低 ; 缺点就是 , 它对于来 自内部 的攻击却
是 无能 为力 。 用检 测是 通 过 对 已知攻 击进 行 特 征 提 误 取 , 立模 型 , 行 匹配 判定 的。 误 用 检 测 的优 点 是 , 建 进 只 要出现攻 击特征库 里的行为 , 就判定 为入侵 , 误报
8 wr ng fa 1 nu b o rg 7_ m erf e i l
—
3 i
sv a eC 0 df r rt f
— —
—
c e t nsC rai o 1 n m s el 8.u h lC S c es i es 1 . m a c s fl C nu 9
—
31 r . v s
~
df o trtC 4 s— o trr rrt i Lh s—ae 0d th s—er _aeC o
41ds h s sr t ot v
— . — — —
r r r er o
_
ra teC
2Onu m o t ou d ub n
c d m s C
21i h s I i . S o t ognD
22l g s lg nD i ue t o i s
— _ _
率较 低 ; 缺点就是 , 它不能够检测到新 的入侵行 为方 式或者未知的入侵。
2 31
2 基于欧氏距离和余弦相似度的特征选择
我 国电子商务 中信任 问题研 究综述
余世 欣 巫孝 君 ( 成都理工大学工程 技术学院)
摘要 : 近年来, 随着信息通信技术的不断突破 , 电子商务发展也进入 了黄
d
而
A
11 电子商务的内涵 由于网络本 身就是新生事物 , . 同时又 处于 金时期。但是, 电子商务中信任问题 已成 为制约电子商务发展的一个重大瓶 不 断 变化 的过 程 中 ,因此 目前 社 会 各界 对 电子 商务 (lcrnc Ee t i o 和 颈 。面对这一问题 , 多专家、 许 学者都做 了很 多的分析与研究 , 并提出 了一系 C mmec ) o re的定 义并未形成 共识 。由于学界 、 商界有各 自不 同的观 列 的解决方案、 措施及建议。 本文试图对其做一个系统 的总结 , 并指 出我国 目 察角度和不同的实践经验 , 曰 因而在理解和定义 电子商务时有所差别, 前对 电子商务信任 问题研究存在的问题及今后 的研究方 向。 大 致 可 以概 括 为狭 义 的理 解和 广 义 的理 解 两 种。 义 的 电子 商 务 , 狭 指 一一 的 卜 关键词 : 电子商 务 信 任 研 究 通过 I en t I rn t 行 的在 线 销 售 式 电子 商务 。 它 是通 过 在 n re 或 n a e 进 t t O 引言 技术 上 、 能 上更 加 拓 展 了的 网 络一 国际 互 联 网 进行 的 , 更严 格 意 功 一 佘 从 电子商务是指利用 电信 网络进行 的商务活动。它是计算机信息 义上规范 的在线产品和劳务 的交易活动 。 广义的 电子商务 , 泛指运用 技术开发与运用的产物 ; 代表 了未来经 济发展的方 向; 是人类科技 、 现代 电子信息技术 , 以整个市场为范 围的商务活动。 在技术手段上不 经济、 文化发展结晶。由于商务网络
环境 大量地充斥着风险、 不确定 限定 于 国际 互 联 网 ,而是 泛指 一 切 与 数 字化 处理 有 关 的 电子信 息 技 性而 又 需 要相 互 依 赖 且 愈 加 复 杂 , 电子 商 务信 任 问题 已成 为 决 定 网 术、 网络技术以及其他交换、 获得数据的技术 。 在商务 范围方面 , 也不 上 交 易成 功 与否 的关 键 因 素 。 电子 商 务信 任 问题 之 所 以显 得 重 要 , 是 仅 限于 通 过 互 联 网 进 行 的在 线 式 产 品和 劳务 的交 易 活 动 , 它还 包 含 因为电子商务 自身所具有的特征决定 了其面临的不确定性和风险性 整个 市 场 一 活 动 相 关 的若 干 方面 , 产 品 设 计 与 生产 、 品和 劳 务 的 如 产 与传统商务相 比, 现为程度 更高、 围更广 、 表 范 情况 更复 杂。这是 因 广告促销 、 易双 方的磋商契约 、 交 产品 的运送 、 货款结算 以及售后服 为: 第一 , 与传统商务一样 , 由于经济行为者 的决策 失误和容 易导致 务等 。 机会主义行 为的买卖双方信 息的不对称分布 ,使得 电子商务易受到 1 信任的内涵 近几年来 , . 2 信任的含义一直在各种情境之下被 交易本身特定 的不确定性和 风险性 的影响。 第二 , 电子商务受交易者 思考 。 由于涉及和研究信任现象的领域较 多, 因而存在许多有关信任 所无法控制的外在 因素的影Ⅱ ,交易所依赖的技术 系统平 台的不确 向 的观 点 。一 类 是 从社 会学 和 伦 理 学 的 角度 进 行 定 义 。比如 , 信 任 定 将 定性和风险性等 ,这种风险是 买卖双 方即使签定协议或合同都难 以 义为“ 从道德上对合理行为的预期 , 即以道德原则为基础 的道德上的 避免的。 正确决策和行动” 。另外 , 从经济学的角度来看 , 信任是指“ 经济交易 基于 上述 原 因 , 电子商 务 信 任 研 究 作 为一 个 单 独 的 研 究 内容 被 的一 方认 为另 一 方 是 可靠 的 , 能够 履 行 自 己的 承诺 。 ” 并 提 了出来 , 对它的研 究也越来越引起有 关学者 的重视 , 本文试图对此 总 的来 说 , 以将 信 任概 括 为 : 可 经济 交 易 的一 方认 为另 一 方 是 可 领域的国内外研究状况加以梳理。 靠 的并且能够履行 自己的承诺。 信任是经济交易活动 中的核心因素 , 1 概念
( 接 第 2 1页 ) 上 3 由于 K D C ’9数据集过于庞大 ,我们在 其中随机分别选 D UP 9 定义 K D C P’9数据集 中数据 的 4 D U 9 1维特 征分别 为 A , , 00 0 0 0数量级的样本作为训练集。 另外 , 将支持向量机 3…, j
, A 1判别标 示 向量 为 B 4 。令 A={ , 码, ) ( ≤ 择 1 0 0和 1 0 0 u物, …, √ 1 下面 4 )曰 ( Y,3 1 , = Y , Y,… , ) 2 ,其 中 n为参 加 训练 的样 本 个数 ,i 作 为 本 次 实 验 的学 习机 器 , 给 出 各 种 实验 结 果 。 Y∈
{ ,1J1 1 一 , 表示该连接记录正 常, 1 一 则表示该记录为异常。 于 是 , 和 4 的 欧 氏 距 离 为 : { A , ,2 B)d( B)… , ( , )其中 如下表示 : d( B)d( , ,3 3 , 以 A A, A 曰) ,
( 3) 弦 相 似 度 为 { m1 , ,r2 B) i 3 3B) ,i4 A 1 )其 中 s ( B) i ( 2 1r ( s 1 , , i A1 s A, s A 7 e e m ( 4 B)
・
—
表 3 实 验 结果 对 比
(
,
∑( j )
B ) = 接
( 4)
实验结果对 比分析 : 从表 3可 以看 出 , 不论是小规模 训练集检 测还是大规模训练集检测 , 经过 , 训练时 间都大 幅降低 , 而且都低于 原来 的三分之一 , 另外 , 在检测率上升 的基础上 , 检测时 间也 有所下
降。
通过实验结果的对比 , 我们认为 , 经过基于欧 氏距离和余弦相似 分别得到欧氏距离和余弦相似度 以后 ,我们将其按 由高到低 的 度 特征 处理 之后 ,入侵检测 系统的实时性和检测性能都得到了普遍 顺序进行排序处理 。选择欧 氏距 离和余弦相似度综合指数较高的属 性作为检测特征。在这里 , 我们一般要在系统中设定一个阈值 , 综合 提 高 。 4 结 论 指 数高 于 这 个 阈值 的 , 我们 保 留其 特 征 , 则 , 将 其 舍 弃 。 否 就 基于欧 氏距离和余弦相似度 的特征选择方法 ,是通过计 算训练 3 实验 验 证 集欧氏距离和余弦相似度并对其排序 , 根据阈值 设定得到 的特征。 经 通 过 对 实验 结 果 的分 析 , 该 方 法 进 行评 价 。 对 过实验验证 ,基于该特征选择 方法 的入侵检 测系统具有更高的检测 在本实验中 ,我们通过对实验数据欧 氏距离和余弦相似度的计 算并排序 , 根据系统设定 的阈值 , 选择出参 加训 练的数据特征 , 1 精度和 实时性能 ,这也进一步体现 了基于欧氏距离和余弦相似度特 共 9 征选择 方法 的优越性和 可行性。 维。特征如表 2所示。
表 2 实验选择特征
I D tn mai o
dtb ts s y e 6
p oo o 1 r tc l ̄ ) e
Fa lg
-
S tie e, ,c 。
lg d l o ge jI
4
8
q l , 州 e l C '
参考文献 : … 曹 元大 入侵检测技术【 北京 人 民邮 电出版社 ,0 7 M】 20 .
【】 2边肇祺. 模式识别【 北京 : M】 清华大学出版社 ,0 0 20 . 【】 3刘文涛 网络安全开发包详解f E : M】 京 电子工业出版社 , 0 5 20.
(t s r t h r ae
9
、 s r O f e r i 讲e
l 0
l J
l :
[ ] u b i Anrt F a ue ee t n sn e cie n i a c 4S e s g n i ,“ e t r s l i u ig u l a ds n e u co d t
a d c sn si i r y f r itu i de e t m o l P o ee igs 一 n o ie m l i o n r son at tci on de”, r c dn
2 9 t 00 1 Asa Co f r n o It lge t nor a in n Daa as s in n e e ce n n el n If m to a d i tb e Sy t m s se ,ACI 00 I DS 2 9,P 8 6—91 0 .2 09
l 3
n =f o t I l h s l
l 4
d t h t ir s os f d s y ae t-r t
1 5
d t h s rt s o t 、 ( f s a e h r ho t r t
l 6
ds o t c Y I t s s ro h
l ’
d t ho t r s s s
1 8
t ho t e l l s l lO '
rt ae
1 9
(时 h s v 【 ot
r I I  ̄t eIO l e t
2 2 3
基 于欧 氏距离和余 弦相似度特征选择 的入侵检测模 型
吴桂 玲
’
( 济大学 同 软件学院 天津市塘沽区市 政工程局)
摘要 : 现今 , 数据挖掘技术 已经广泛用于各个领域, 得到社会各界的普遍 事实上 , 入侵检测系统还有一些不足 , 特别是误用检测对未知攻 关注。 在入侵检测系统中, 数据挖掘也 已 经成 为了数据采集的主要技术手段。 击不能进行有效 的防范。 支持 向量机、 神经 网络、 模式识 别、 专家系统 特征选择则是入侵检测 系统中数据挖掘 的关键 , 因为特征选择的好坏会直接
等一些人工智能技术和数据挖掘 的应用 ,使得入侵检测系统得到大
影响到 系统的检 测精度。 本文提出 了 基于 欧氏距离和余弦相似度 的特征选择 幅 改 善 。
12 欧 氏距 离 _ 欧氏距离最多 的应用是对距离的测度。 大多情 况下 , 人们谈到距 率, 提高入侵检测性能。 离的时候 , 都会很自然 的想到欧氏距离。从数学的角度来讲, 欧氏距 关键 词: 入侵检测系统 数据挖掘 特征选择 离或欧式测度实际上就是两点间的距离。 』: ,2 。… , 和点 点 4 ( X, , ‰) 0 引 言 ( , , ) , …, 之间的欧 氏距离定 义如式( ) 示。 1所 近年来 , 网络用户数量持续高速增长 , 全球大约有超过 1 4亿人
的特征子集 , 为网络入侵检测建立模 型。同时 , 该方法能够有效地降低误报
=
方法 。 这种 方法 很 容 易 实现 , 且 实 验 结果 表 明 , 方 法 能够 提 取 出一 个 完 备 而 该
在使用网络。 同时, 越来越 多的人们也遭 受着各种 网络安全问题 的威 ( B √ ) ( ) (一 ) … f ) | ) ( 一 : L 3 + 4 = 一 + , +Y + 一 j 胁。入侵者利用计算机 网络系统 的漏洞和传统 网络安全技术 的不足 1 余 弦相 似 度 . 3 实施入侵行为 , 我们现在所用到的防火墙 、 杀毒软件、 信息加密、 网络 余弦相似度是测量两个 n维 向量 之间相似度 的一种 常见 方法 。 安全协议等技术 已经不能完全有效地保证计算机 网络 系统 的安全。 余弦相似度在多种领域都有所涉及, 如文本挖掘、 信息检索等。 入侵检测 系统能够监 听网络 ,并察觉网络入侵行为或有违网络安全 给 定 两 个 向量 A= ,: 。… , 和 曰 ( 2 3… ,2 )3 两 ( , , ‰) = y, 1 , 1 , Y 是 策 略 的行 为 , 网 络 异 常行 为 、 权 用 户 的越 权 行 为 和 恶 意 攻 击等 。 如 授 d 义为 :
个 向量 之 间的 夹 角 , 么 两 个 向量 之 间 的 余弦 相 似 度 就定 p S 那 因此 , 入侵检测技术作为对传统网络安全技术的弥补 , 到了社会各 得 界 的 广泛 重 视 。 s ( 1 o 6 {B B =c s ̄ . 4 C D ) 数据挖掘的成功 引入 , 大大提 高了入侵检测 系统 的检 测性能。 而 一 数据挖掘却极大地依赖于特征 的选择。一般使用机器学 习的方法进 行特征选择,特征选择技术就是为建立学 习模型选择原始数据的关 14 数 据 集 . 键特征子集。 本 文采 用 的数据 集 是 K D C ’9数 据集 ,它是 1 9 D UP 9 9 8年 本文正是要利用欧氏距离和余弦相似度来进行特征选择 ,使得 D P AR A入侵 检测评估项 目中所选 用的数据特 征。这个项 目是由麻 入侵检测系统用较低维度 的样本特征代表更 多网络连接 的信息量 。 省理工学 院林 肯实验室和 美国国防部高 级研 究计划局 发起和进 行 1背景 目的是观察和评估入侵检测系统 的研究工作, 用一套标; 隹格式的 数据挖掘技术 的发 展使得 网络数据 的捕获和存取 变得更加简 的, 数据 来评估各种入侵检测 系统 的性能。1 9 9年 K 9 DD ( n wl g Ko e e d 单、 有效 , 而如何为实际应用 系统将大量 的数据转换 为可用的信息数 Ds o ey i D tb s s ic v r n aa a e )竞赛 中在数据挖掘和入侵检 测方面的网 据成为了新 的挑战。 络 数 据 也 是采 用这 种 格 式 。 D P 评 估 项 目从 遵 循 上 述 要 点 的仿 AR A 数据挖掘一个 关键 的任务就 是根据决 策进 行特征 的提取与选 C DU 择。在文本分类、 网络信息采集等领域 , 许多研 究者都将降维技术 引 真网络环境 中了采集 9个星期的 T P MP格 式的网络连接数据, 其 中含 有 5 0万 条 用 于 训 练 的 T PI 接 记 录和 2 0万 条用 于 测 0 C/ P连 0 入到机器学 习和数据挖掘 中,而数据降维技术也往往会用到特征 的 试 的连 接 记 录 ( 个连 接大 约 1 0 ye 每 0 b ts o 选择。这样处理 不仅能够减 少特征数量 , 快速建立模型 , 而且还可以 此数据集将每一 条 T PI C/ P连接作 为一个样本 , 每一个样 本又都 帮助系统去除一些无 关信息、 冗余信息和噪声信息。 这就使我们能够 由 4 个特征给与描述 , 中包括基本属性 9个 , 1 其 内容属性 1 3个 , 流 建 立 更加 简 单 、 效 的 分 类模 型 , 高 分 类器 的 分类 n 。 有 提
I  ̄ 因此 , 键 -  ̄ 关 量属性 9个以及主机流量属性 1 O个 。表 1给出了网络连接记录 中 属性的选择不论是对完善分类器 , 还是对数据降维都是至关重要的。 4 维 属 性 特征 。 1 在本文 中, 了改进入侵检测的检测性 能 , 为 我们 表 1 网络 连 接 的 4 1维 属 性 特 征 将应用欧氏距离和余弦相似度进行特征选择。
I
( 2 )
11入 侵 检 测 .
本属性集
内容属性集
时间流量属性集
主机流量 属性集
现今主要有基于主机 的和基于 网络的两种形式 的入 侵 检 测 系统 。 在 基 于 网络 的 入 侵 检 测 系统
1 h tC 0.o
_ —
2 c un 3.o t C
—
1 u n m f ld IgisC 2 sv c un 1 ai e o n 4.r o tC
1 g nD l edi 2 og
2 s rorr t 5.e r ae C
_
( I S) , 统 对 从 网 络 中捕 获 的数 据 包 进 行 分析 , ND 中 系 会检测到企 图绕过防火墙侵入 系统内部 的数据包 , 4f g D 并 .l a 1_ m c nu 3 om p o i e rm s d C 对其进行响应处理。而在基于主机 的入侵检 测系统 ro 4 h l ( I S) , 统 是 通 过 单 个 主 机 上 日志 文件 或 者 日 5. F b esC 1 o t s elD HD 中 系 S C yt 志数据库进行检测的。入侵检测技术主要有两种 : 异 yesC S 5 te e 2 r r r 8 sv er or 6d t b t 1 U at m t d D .s 常检测和误用检测。 异常检 测通 过设定正常行为模式 的偏离值 来判 v 7 l dD an 1 u 6 n m r tC oo 2 ame sr 9s 断是否有入侵发生。在这里 , 我们假定所 有的入侵行
— — — _ — — — — —
一一 一~ 一 一 一
.
rt a eC
—
r t ae C
为和越权行为都 是偏离正常系统模式范围的。 异常检 me t nC 测的优 点是 ,它能够检测到几乎所有来 自外部 的攻 9 uge tC r n 击, 漏报率较低 ; 缺点就是 , 它对于来 自内部 的攻击却
是 无能 为力 。 用检 测是 通 过 对 已知攻 击进 行 特 征 提 误 取 , 立模 型 , 行 匹配 判定 的。 误 用 检 测 的优 点 是 , 建 进 只 要出现攻 击特征库 里的行为 , 就判定 为入侵 , 误报
8 wr ng fa 1 nu b o rg 7_ m erf e i l
—
3 i
sv a eC 0 df r rt f
— —
—
c e t nsC rai o 1 n m s el 8.u h lC S c es i es 1 . m a c s fl C nu 9
—
31 r . v s
~
df o trtC 4 s— o trr rrt i Lh s—ae 0d th s—er _aeC o
41ds h s sr t ot v
— . — — —
r r r er o
_
ra teC
2Onu m o t ou d ub n
c d m s C
21i h s I i . S o t ognD
22l g s lg nD i ue t o i s
— _ _
率较 低 ; 缺点就是 , 它不能够检测到新 的入侵行 为方 式或者未知的入侵。
2 31
2 基于欧氏距离和余弦相似度的特征选择
我 国电子商务 中信任 问题研 究综述
余世 欣 巫孝 君 ( 成都理工大学工程 技术学院)
摘要 : 近年来, 随着信息通信技术的不断突破 , 电子商务发展也进入 了黄
d
而
A
11 电子商务的内涵 由于网络本 身就是新生事物 , . 同时又 处于 金时期。但是, 电子商务中信任问题 已成 为制约电子商务发展的一个重大瓶 不 断 变化 的过 程 中 ,因此 目前 社 会 各界 对 电子 商务 (lcrnc Ee t i o 和 颈 。面对这一问题 , 多专家、 许 学者都做 了很 多的分析与研究 , 并提出 了一系 C mmec ) o re的定 义并未形成 共识 。由于学界 、 商界有各 自不 同的观 列 的解决方案、 措施及建议。 本文试图对其做一个系统 的总结 , 并指 出我国 目 察角度和不同的实践经验 , 曰 因而在理解和定义 电子商务时有所差别, 前对 电子商务信任 问题研究存在的问题及今后 的研究方 向。 大 致 可 以概 括 为狭 义 的理 解和 广 义 的理 解 两 种。 义 的 电子 商 务 , 狭 指 一一 的 卜 关键词 : 电子商 务 信 任 研 究 通过 I en t I rn t 行 的在 线 销 售 式 电子 商务 。 它 是通 过 在 n re 或 n a e 进 t t O 引言 技术 上 、 能 上更 加 拓 展 了的 网 络一 国际 互 联 网 进行 的 , 更严 格 意 功 一 佘 从 电子商务是指利用 电信 网络进行 的商务活动。它是计算机信息 义上规范 的在线产品和劳务 的交易活动 。 广义的 电子商务 , 泛指运用 技术开发与运用的产物 ; 代表 了未来经 济发展的方 向; 是人类科技 、 现代 电子信息技术 , 以整个市场为范 围的商务活动。 在技术手段上不 经济、 文化发展结晶。由于商务网络
环境 大量地充斥着风险、 不确定 限定 于 国际 互 联 网 ,而是 泛指 一 切 与 数 字化 处理 有 关 的 电子信 息 技 性而 又 需 要相 互 依 赖 且 愈 加 复 杂 , 电子 商 务信 任 问题 已成 为 决 定 网 术、 网络技术以及其他交换、 获得数据的技术 。 在商务 范围方面 , 也不 上 交 易成 功 与否 的关 键 因 素 。 电子 商 务信 任 问题 之 所 以显 得 重 要 , 是 仅 限于 通 过 互 联 网 进 行 的在 线 式 产 品和 劳务 的交 易 活 动 , 它还 包 含 因为电子商务 自身所具有的特征决定 了其面临的不确定性和风险性 整个 市 场 一 活 动 相 关 的若 干 方面 , 产 品 设 计 与 生产 、 品和 劳 务 的 如 产 与传统商务相 比, 现为程度 更高、 围更广 、 表 范 情况 更复 杂。这是 因 广告促销 、 易双 方的磋商契约 、 交 产品 的运送 、 货款结算 以及售后服 为: 第一 , 与传统商务一样 , 由于经济行为者 的决策 失误和容 易导致 务等 。 机会主义行 为的买卖双方信 息的不对称分布 ,使得 电子商务易受到 1 信任的内涵 近几年来 , . 2 信任的含义一直在各种情境之下被 交易本身特定 的不确定性和 风险性 的影响。 第二 , 电子商务受交易者 思考 。 由于涉及和研究信任现象的领域较 多, 因而存在许多有关信任 所无法控制的外在 因素的影Ⅱ ,交易所依赖的技术 系统平 台的不确 向 的观 点 。一 类 是 从社 会学 和 伦 理 学 的 角度 进 行 定 义 。比如 , 信 任 定 将 定性和风险性等 ,这种风险是 买卖双 方即使签定协议或合同都难 以 义为“ 从道德上对合理行为的预期 , 即以道德原则为基础 的道德上的 避免的。 正确决策和行动” 。另外 , 从经济学的角度来看 , 信任是指“ 经济交易 基于 上述 原 因 , 电子商 务 信 任 研 究 作 为一 个 单 独 的 研 究 内容 被 的一 方认 为另 一 方 是 可靠 的 , 能够 履 行 自 己的 承诺 。 ” 并 提 了出来 , 对它的研 究也越来越引起有 关学者 的重视 , 本文试图对此 总 的来 说 , 以将 信 任概 括 为 : 可 经济 交 易 的一 方认 为另 一 方 是 可 领域的国内外研究状况加以梳理。 靠 的并且能够履行 自己的承诺。 信任是经济交易活动 中的核心因素 , 1 概念
( 接 第 2 1页 ) 上 3 由于 K D C ’9数据集过于庞大 ,我们在 其中随机分别选 D UP 9 定义 K D C P’9数据集 中数据 的 4 D U 9 1维特 征分别 为 A , , 00 0 0 0数量级的样本作为训练集。 另外 , 将支持向量机 3…, j
, A 1判别标 示 向量 为 B 4 。令 A={ , 码, ) ( ≤ 择 1 0 0和 1 0 0 u物, …, √ 1 下面 4 )曰 ( Y,3 1 , = Y , Y,… , ) 2 ,其 中 n为参 加 训练 的样 本 个数 ,i 作 为 本 次 实 验 的学 习机 器 , 给 出 各 种 实验 结 果 。 Y∈
{ ,1J1 1 一 , 表示该连接记录正 常, 1 一 则表示该记录为异常。 于 是 , 和 4 的 欧 氏 距 离 为 : { A , ,2 B)d( B)… , ( , )其中 如下表示 : d( B)d( , ,3 3 , 以 A A, A 曰) ,
( 3) 弦 相 似 度 为 { m1 , ,r2 B) i 3 3B) ,i4 A 1 )其 中 s ( B) i ( 2 1r ( s 1 , , i A1 s A, s A 7 e e m ( 4 B)
・
—
表 3 实 验 结果 对 比
(
,
∑( j )
B ) = 接
( 4)
实验结果对 比分析 : 从表 3可 以看 出 , 不论是小规模 训练集检 测还是大规模训练集检测 , 经过 , 训练时 间都大 幅降低 , 而且都低于 原来 的三分之一 , 另外 , 在检测率上升 的基础上 , 检测时 间也 有所下
降。
通过实验结果的对比 , 我们认为 , 经过基于欧 氏距离和余弦相似 分别得到欧氏距离和余弦相似度 以后 ,我们将其按 由高到低 的 度 特征 处理 之后 ,入侵检测 系统的实时性和检测性能都得到了普遍 顺序进行排序处理 。选择欧 氏距 离和余弦相似度综合指数较高的属 性作为检测特征。在这里 , 我们一般要在系统中设定一个阈值 , 综合 提 高 。 4 结 论 指 数高 于 这 个 阈值 的 , 我们 保 留其 特 征 , 则 , 将 其 舍 弃 。 否 就 基于欧 氏距离和余弦相似度 的特征选择方法 ,是通过计 算训练 3 实验 验 证 集欧氏距离和余弦相似度并对其排序 , 根据阈值 设定得到 的特征。 经 通 过 对 实验 结 果 的分 析 , 该 方 法 进 行评 价 。 对 过实验验证 ,基于该特征选择 方法 的入侵检 测系统具有更高的检测 在本实验中 ,我们通过对实验数据欧 氏距离和余弦相似度的计 算并排序 , 根据系统设定 的阈值 , 选择出参 加训 练的数据特征 , 1 精度和 实时性能 ,这也进一步体现 了基于欧氏距离和余弦相似度特 共 9 征选择 方法 的优越性和 可行性。 维。特征如表 2所示。
表 2 实验选择特征
I D tn mai o
dtb ts s y e 6
p oo o 1 r tc l ̄ ) e
Fa lg
-
S tie e, ,c 。
lg d l o ge jI
4
8
q l , 州 e l C '
参考文献 : … 曹 元大 入侵检测技术【 北京 人 民邮 电出版社 ,0 7 M】 20 .
【】 2边肇祺. 模式识别【 北京 : M】 清华大学出版社 ,0 0 20 . 【】 3刘文涛 网络安全开发包详解f E : M】 京 电子工业出版社 , 0 5 20.
(t s r t h r ae
9
、 s r O f e r i 讲e
l 0
l J
l :
[ ] u b i Anrt F a ue ee t n sn e cie n i a c 4S e s g n i ,“ e t r s l i u ig u l a ds n e u co d t
a d c sn si i r y f r itu i de e t m o l P o ee igs 一 n o ie m l i o n r son at tci on de”, r c dn
2 9 t 00 1 Asa Co f r n o It lge t nor a in n Daa as s in n e e ce n n el n If m to a d i tb e Sy t m s se ,ACI 00 I DS 2 9,P 8 6—91 0 .2 09
l 3
n =f o t I l h s l
l 4
d t h t ir s os f d s y ae t-r t
1 5
d t h s rt s o t 、 ( f s a e h r ho t r t
l 6
ds o t c Y I t s s ro h
l ’
d t ho t r s s s
1 8
t ho t e l l s l lO '
rt ae
1 9
(时 h s v 【 ot
r I I  ̄t eIO l e t
2 2 3