基于数据挖掘的异常检测模型

电子工程师计算机应用Vof.29~o.62()03

基于数据挖掘的异常检测模型4

AnomalyDetectionModelBasedonDataMining

黄莹

(江苏省软件产品检测中心江苏南京210002)

【摘要l提出了一种基于数据挖掘的异常检测模型,按此模型建成的系统具有可扩展一|生、白适

应性和准确性等特点。另外,对模型的关键技术进行了详细的阐述,包括:数据预处理技术、数据挖掘

算法、规则库建立和维护技术、决策等。

关键词:异常检测,数据挖掘.网络安全,分类器丁p;7;,喵多

【Abstract】Inthispapcr,anomalydetectlollm。山lbasedon。datIm;ninglsprop。sed.Thesys

temwjlhIhlsmodeljsextenslble,accurateandadaI)“veMoreover.t}1【sI)a畔rdiscussessomekey

technoIoglesint¨smodd,whichLncludethedatapreproces刚“glcchllology,algonthmsofdala

nllning,rules1lbrarvsestablishmentan(1update.decisionn】akmgandsoon.

Keywords:a【lomalydetection,dalamining,networkse“Inty.classmer

l引吉法律责任的有效证据。

入侵检测作为安全技术主要功能有:识别人侵者;

随着网络技术的发展,嗍络环境变得越来越复杂,识别人侵行为;舱测和监视已成功的安全突破;为对抗对于网络安全来说,防火墙、加密、身份认证等传统技措施及时提供重要信息。从这些方面来看,人侵榆测术已暴露出明娃的不足和弱点.如无法解决安全后门非常必要,它将弥补传统安全保护措施的不足。人侵问题,不能阻止网络内部攻击(而调查发现,80%以上检测将成为系统安全的第二道防线.并目,它已经成为的攻击都来自内部),不能提供实时入侵检测能力,对近几年很多研究的中心。

于病毒等束手无策等。凶此,很多组织致力于提m更

多更强大的=I三动策略和方巢,来增强剐络的安全性,其2异常榆测概述

中一个有效的解决途径就是入侵检测。入侵检测技术目前,入侵榆测系统主要分为基于知识的和基于是为保证计算机系统的安全而设计与配臀的一种能够行为的入侵榆测。

及时发现并报告系统中未授权或异常现象的技术,是基于知识的入侵检测也被称为违规检测(misuse一种用于检测计苒机网络巾违反安全策略行为的技detection),这・检测假设人侵者活动可以用一种模式术。它通过对计尊机网络或计算机系统中的若干关键来表示,系统的目标是检测主体活动是否符合这些模点收集信息并进行分析,从中发现嘲络或系统中是台式。它可以将已有的入侵方法检查出来,但对新的入有违反安全策略的行为和被攻击的迹象。进行入侵检侵方法无能为力。其难点在于如何设计模式,使之既测的软件与硬件的组合就是入侵检测系统(InIrus・on能够表达“入侵”现象,又不会将正常的活动包含进来。I)eterlionsystem,11)s)。}袤系统能够识别出任何不基于行为的入侵检测也称为异常检测(anon・aly希望有的活动,从而达到限制这些活动,保护系统安全detection),基于异常的检测方法主要来源于这样的思的目的。入侵检测系统的应I}¨,能在八侵攻击对系统想:任何人的止常行为都有一定的规律性,并且,可眦发生危害前,就检油l到八经攻盘.并和l用报警与防护系通过分析这些行为产生的R志信息总结出这些规律,统驱逐入侵攻击;在入侵攻击过程中,能减少人侵攻击而人侵和滥用行为则通常和正常的行为存在比较大的所造成的损失;在铍入侵攻击后,收集人侵攻击的相关差异,通过检查这些差异就可以检测入侵。例如,如果信息,作为防范系统的知识,添加入知识库,以增强系用户x仅仅是在早上9点到下午5点之问在办公室统的防范能力。系统可以弥补防火墙的不足.为网络使用计算机,则用户在晚上的活动是异常的,就有町能安全提供实时的入侵检测并采墩相应的防护手段,它是入侵。这样我们就可以检测出非法的入侵行为.此不仅能榆测来自外部的入侵行为,同时也能指出内部外.不属于人侵的异常行为(滥用自己的权限)也能被用户的未授权活动。入侵检测运用了以攻为守的策检测到。异常检测的难题在于,如何建立“川户止常使略,它所提供的数据不仅有可能用来发现合法用户足用模式”以及如何设计统计算法,从而不把正常的操作否滥用特权,还有可能在一定程度上提供追究入侵者作为“入侵”或忽略真正的“入侵”行为。*收稿日期:2003一04一08

・11・

万 方数据

黄莹:基于数据挖掘的异常检测模型

枉r述曲种八侵榆测模型中,异常检测是一个非

常f.‘蹶的入侵榆测方法.它具有的优点包括与系统相

对尤关.通崩性较强.可以检测出以前术出现过的攻山

方法等。常川的异常检测方法和技术包括:闽值检

测.统汁方法.纂r规则的方法.其它的力法(如:数据

挖掘、神经I叫络、遗传苒法、免疫系统力法、模糊识圳

等)。这些方法|J前邯停留在理沦研究阶段。

3数据挖抛1j异常检测

异常榆测是日『ji』人侵检测系统的{.要研究方向,

j{;特点址通过对系统干j为的检测.可以发现未知的攻

^{j为。异常检测技术寅质上归结为对安全审汁数据

的处删.这种处理叫以针列网络数据.也可以引对上机

的’#计It录或应川程序的日志殳件.其R的在于止常

他川模式的建一以及如何利州这些模式对当前的系统

或川户于Jh为进行比较,从m判断小与正常模式的偏离

狂喽。然而.操作系统的1j益复杂化和网络数据流星

的急剧膨胀.导致r安全审计数据同样以惊人的速度

递增。.激增的数据背后蕴藏着汁多重要的信息.例如

川p或系统的lJ二常使刚模式等,人们希望能够对其进

,亍更高抽象层次的分析,以便更好地利用这些数据。

}j前的1订¨系统r,l以・岛效地实观安伞审计数据的输

入、古澍、统汁等功能.仉无法发现数据。p存住的关联、

关系、规则和川p或系统行为模式等.尤法根据现有的

数据坝测术束的发展趋势,缺乏挖掘数据背后蕴藏的

知炽的}=|段.导致r¨数据爆炸似知识贫乏”的现象。

如何从赶齄的审计数据中提取具有代表件的系统

或川户特征模式,川于刘程序或川j户行为作出捕述,是

’实现安全。卦蚪审计系统的,j乏键。为了对审计数据进行

争∞J、商速和准确的分析.rtJ以使用数据挖掘方法来处

理安全事件数据。数据挖掘(datam11w、g)是一种特定

啦朋的数据分析过群,可以从包等人墙冗余信息的数

据巾提取堪”r能多的盟藏的安全信息.抽象出有利于

进fj判断和比较的特征模删.这些特征模型可以是基

J_芹常榆洲的行为描述模型,也i_丁以足基于异常榆洲

的衍为捕述模巧9。根据这些特征向量模型和行为描述

模型.叮以F}j计算机利用相应的算法判断m当前行为

的‘盹质。

“。聋命审计数据的处理上.f=1前应JTj较多的数据

挖掘算法她火联规|l!|J(assoclatlona㈨lysls)、序列挖掘

(州Ⅲ、n(cn¨】1lng)和数据分类((Iatacla删‰aIlon),哥

伦比业夫学的w¨-keI麒、在这方面已进行r较长时

m…l研究

4培}二数船挖掘的异常检测模理

丛j:数据挖挑{的异常揄洲模型主要有数据采集预

处弹馍块、敬据挖掘模块、模式更新模块以及决策模块

等.挂型结构如阁11听小其巾数据源可以来f_|应IL}j

程序、I・机或网络.前本文的研究中.数据源主要来自

j:网络数据。网络数据是¨简商业异常检测系统最为

・12・

万 方数据通用的信息来源,其摹本原理是:、≮网络数据在网段中传播时。采取特殊的数据提取技术,收集网络传播的数据.作为异常检测的数据源。黑蔫pl数据采集H叫模式卜-LJI及预处理Io—I更新I圈1基于数据挖掘的异常检测模型图各模块的主要功能如下:(1)数据采集及预处婵模块:主要埘数据源进行处理,产乍符合关联规则挖掘要求的特定格式的事件序列。它是基于数据挖掘的异常检测模型巾的一个重要组成部分,在此模型巾,将使用Bro作为网络数据包过滤及鼋组弓l擎.该程序可以对刚络中的数据流进行过滤并产生一系列丰H腑的事件。l{ro的系统结构如图2所示.数据包过[二型口数据帧图2Bro的体系结构(2)数据挖掘模块:数据挖掘模块利用关联分析和序列分析算法对事件库进行挖掘,发现关联规则和频繁序列模式。由于事件库中的事件数量庞大,且属性较多.利用一般的频繁模式挖掘算法会产牛大量无用的规则。罔此必须用基于轴属性的频繁模式挖掘算法,便了获取有效的规则。最后,用一个分类算法,如RIPPFR算法,对挖掘出的频繁模式进行分类,得到正常和异常行为模式。需要强调的是特征属性的选择对R1PPER算法至关重要,可根据已挖掘m的关联规则和频繁序列所涉及的属性进行选择。在此模型巾.我们将使用如F一些算法:(a)分类。把一个数据集映射成定义好的几个类。这类算法的输m结果就是分类器,常用决策树或规则集的形式来表示。在异常检测巾的主要应用就足埘川户或应用程序收集足够“正常”和“异常”的审计数据,然后用分类算法得到一个分类,

电子工程师计算机应用vjz.29N。.62003标}己或预测新的审汁数据属丁证常还是异常类。(h)误用检测技术各自的优点.提高J’结求的准确性关联分析。决定数据库记录巾属性问的关系。利用审

汁数据tp系统属性问的相关性作为构建正常使用模式5结束语

的基础。(c)序列分析。获取序列模式模型。这类箅建立异常检洲系统是一个人型的、复杂的系统【法可以发现审计事什中频繁发生的时间序列。这此频程。本系统的没汁考虑到了数据源的多样性,利用数繁事件模式为构建人侵检测模型叫选择统汁特征提供据挖掘技术在处王!}!海量数据方面的优势,由数据挖掘r指导准则。算法自动挖拙出有效规则,并能对规则库进行及时更

(3)模式更新模块:该模块用来小断修正引更新用新,提高了系统的自动化程度。但对丁~个完善的异户或系统的正常规则或模式。在现实网络世界中,安常榆测系统来说.还有很多丁作受做,例如:改进数据全审}卜数据是随时间的变化mJ变化的.用户行为的模挖拙箅法,提高系统的自适应能力.以榆洲新犁入侵和式很可能随时间呈现“;某种发展趋势.使得当前已发已知入侵的变种:检测结果的nJ视化.把榆洲结果以现的用户行为模式。r能不再生效,而nJ能存在新的川直观的形式表达出来.便于刚络管理人员分析决策;户行为模式有待于进一步去发现。闭此,不仪需要有提高系统检测的实时性和准确性等。

高效的算法来挖掘{n用户行为模式,而H也迫切需耍参考文献

有高效的算法米更新、维护和管理已挖掘出来的州户

行为模式。lWLee,SJS101foDaIaM…1【19Approaclles[orIInrL¨I。Il

(4)决策模块:将埘规则库中的历史行为模式和当Dete“joI】Proceedlngof1he7lhUSENlXS㈣rlLvSvmpo前行为模式进行比较.以检测用户行为是否呈现异常。slum.SanAntonⅢ,TX,1998

埘}_}I数据挖掘模块输入的已分类的“正常”和“异常”规2HanJ.KamhcrM数据挖掘概念与技术范明,孟小峰.则,根据规则庠巾的正常和异常规则.用r述的相似度译北京:机械丁业出版丰十,孙0j

3蒋建眷.7t§登圈.I硪洛A慢检洲原理与技术北京:I到防1・№

来检测规则之间的匹配程度。相似度的取值范围勾0出版社.2。0l

~1.取值越丸.说明两个规则越吻合,若为1蜕明两者4杨m荣,采擒豹.孙均毅基十数据挖掘的智能化八侵检测完全相同.若为f)说日,J两扦完全柏异。列两个规则采系统计算机T程,2∞1.27(q):I7一一18

刚模式比较算法求得相似度。对“正常”规则,与规则5WI,ee,S』Stolfo.KWM。k.M1儿¨培Aud“D“tHtoBulId库巾的止常规则进行模式比较,若相似度大于用户规IInrLIsLon【)etecLlonModel*ProcccdInⅡsufthc4rhIntcrna定的晦伉,淡用户行为可能是正常行为,再把该规则与tlon£1IConfc㈣cc()nKnowIcdgcDlsⅢervandnataM1n规则j辛中的异常规mIJ进行模式比较,若相似度小于规tng,NewYork,1908

定的阀值,划可断定该川户行为是止常行为.菪卡H似度6WPnkeI。ee.Salvatorej野olIo.A【)alaM1IuIlgFr。【TI【Pwork

formInr儿lsloI】I)elecllo【1ModPlK.}l

大丁规定的阀值.可标记为可疑行为。血u“正常”规则L1[IlTlgLtp:…L■

Co|LllnblaedLl,Ids.2002.10

与圭见则库・+・的正常规则比较得到的相似度小于用户指7Wenhl。ee,Salvat㈣JStolfo.MmlnHAIl(iltmta“1m11Id定的阀值,该行为可能是异常行为,再把该规j111J呵异常Intruslun1]ctcctl()nM()delshtt口:+,Ⅵww.L’s.(olun崩a.规则进行比较,苔州似度大丁规定的阀值,』I!|j口j断定该cdu¨ds.2()【)2.¨)

行为是异常行为,俞则标记为町疑行为。对”异常”规8连一峰,戴英伙,王航.壤于模式挖掘的用户行却异常榆则,枪测原理类似。这种检测力法利用了异常检测和测}f算机学报,2002,25(3).327、,3●

、,+“。.,o,!・…,≮掉・,_1…0,■。。”。j、《.川。。:I二■,^t+二。§?。&。;《jg

(上接第2页)

;wr)T为定时器模式+定时时|Ti】ls构简单、成本低、寿命长、节水效果明显等特点。实际b眠b#wDlfE.&IEj:开w【)1、中断

川1'T作情况表明:使用5号碱性电池供电.每灭阀门开断;丌‘Il断loO次.电池工作寿命可在1年以上。

bhw#I。P_Ⅵ3,sR;进入I。PM3

参考文献

削大urMsP430系列H,AsH型超低功耗l6位单片机北

京:北京航空航天大学出版社,2f1()l一

:wnT巾断服务程序

mnv.w#|1.0(SP):一一々。tov。o。zoto*zo_o*t≮r.■r}■;{■r幽s★o9t9‘;。'。+{》一“。r“1:退出f,I’M3投稿时;p

4结束语

MSPA30Fll01单片机具有超低功耗、低成本等特

点,预¨在今后会有更广泛的应用。荩于

MsP430Fu01没计的低功耗智能水阀具有功耗小、结

万 方数据

基于数据挖掘的异常检测模型

作者:

作者单位:

刊名:

英文刊名:

年,卷(期):

被引用次数:黄莹江苏省软件产品检测中心,江苏,南京,210002电子工程师ELECTRONIC ENGINEER2003,29(6)4次

参考文献(8条)

1. 连一峰;戴英侠;王航 基于模式挖掘的用户行为异常检测[期刊论文]-计算机学报 2002(03)

2. Wenke Lee;Salvatore J Stolfo Mining Audit Data to Build Intrusion Detection Models 2002

3. Wenke Lee;Salvatore J Stolfo A Data Mining Frameworkfor Building Intrusion Detection Models 2002

4. W Lee;S J Stolfo;K W Mok Mining Audit Data to Build Intrusion Detection Models. Proceedings of the4th International Conference on Knowledge Discovery and Data Min ing 1998

5. 杨向荣;宋擒豹;孙均毅 基于数据挖掘的智能化入侵检测系统[期刊论文]-计算机工程 2001(09)

6. 蒋建春;冯登国 网络入侵检测原理与技术 2001

7. HANJ;Kamber M;范明;孟小峰 数据挖掘-概念与技术 2001

8. W Lee;S J Stolfo Data Mining Approaches for Intrusion Detection 1998

引证文献(4条)

1. 李丽. 岳鹏 办公室局域网异常点入侵检测模型[期刊论文]-电脑编程技巧与维护 2009(4)

2. 杨静. 张绍兵. 张健沛 数据挖掘技术在优化与机械设备故障诊断中的应用[期刊论文]-煤矿机械 2005(9)

3. 刘洪涛. 童德利. 陈世福 一种基于属性的异常点检测算法[期刊论文]-计算机科学 2005(5)

4. 童德利 数据挖掘中异常点检测技术的研究[学位论文]硕士 2004

本文链接:http://d.g.wanfangdata.com.cn/Periodical_dzgcs200306005.aspx


相关文章

  • 数据分析技术在指挥信息系统中的应用_徐建平
  • 指挥控制系统设计与建设 数据分析技术在指挥信息系统中的应用 徐建平,李晓冬 (信息系统工程重点实验室,江苏南京 210007) 摘 要:介绍了数据分析.数据挖掘的基本知识,讨论了数据分析技术在指挥信息系统中的作用,提出了雷达历史数据分析总体 ...

  • 简述网络信息安全
  • 1简述网络安全的基本含义 网络安全就是网络上的信息安全,是指网络系统的硬件,软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏更改泄露,系统连续可靠正常的运行,使网络服务不中断. 2网络面临的安全威胁主要有哪些? 被动攻击与主 ...

  • 电子税务局毕业论文
  • 学校编码:10384 分类号 密级 学号:X[1**********] UDC 工 程 硕 士 学 位 论 文 某市税收数据综合应用平台 数据质量监控系统的设计与实现 Design and Implementation of Data Qu ...

  • 入侵检测技术设计
  • 毕业论文(设计) 论文(设计)题目: 入侵检测系统设计 试点单位 市电大 学生姓名 罗佳 学号 061054030 专业 2006 届(秋) 本科 层次(本专科) 湖北广播电视大学印制 目 录 一.网络安全的概念 ............. ...

  • 系统架构设计师 案例分析知识点整理
  • 系统规划:包括系统项目的提出预可行性分析:系统方案的制定.评价和改进:新旧系统的分析和比较:现有软件.硬件和数据资源的有效利用: 软件架构设计:XML 技术:基于架构的软件开发过程:软件的质量属性:架构(模型)风格:特定领域软件架构:基于架 ...

  • 汇总丨大数据安全分析常见问题
  • 导 读: 大数据是时下最火热的IT行业的词汇,随着数据仓库.数据安全.数据分析.数据挖掘等等围绕大数量的商业价值的利用逐渐成为行业人士争相追捧的利润焦点.本人在与用户沟通大数据问题时经常会遇到一些问题,现将这些常见问题汇总,抛砖引玉,希望可 ...

  • 自考信息安全信息与网络管理知识点
  • 信息安全 信息安全的概述 信息:根本作用:表征,控制.性质:普遍性可识别性,存储性可处理性,时效性共享性,增值性可开发性,可控制多效性. 信息安全:一个国家的社会信息化状态不受外来威胁侵害,技术体系不受侵害.属性:完整性可用性保密性可控性可 ...

  • 基于多特征融合的人体动作识别_田国会
  • 第39卷 第5期山 东 大 学 学 报 (工 学 版) 2009年10月 Vol . 39 No . 5Oct . 2009 JOUR NAL OF SHA NDO NG U NIVER SITY (E NGINEER IN G SCIEN ...

  • 基于时间序列相似性聚类的应用研究综述
  • 陈湘涛,李明亮,陈玉娟:基于时间序列相似性聚类的应用研究综述2010,31(3) 577 人工智能 0引言1时间序列分割 为了对时间序列进行聚类,需要对时间序列进行分割,然 时间序列作为数据库中的一种数据形式,它广泛存在于各种大型的商业.医 ...

© 2024 范文参考网 | 联系我们 webmaster# 12000.net.cn