1引言 近年来,网络技术的飞速发展,互联网上的数据以每天数千万条的速度迅速增长,数据的产生、传输、存储、访问和处理方式都发生了翻天覆地的变化。在这样的一个大背景下,数据挖掘孕育而生。另一方面,各种网络安全检测技术、设备和产品会生成大量的关于网络安全及流量的检测数据,单单依靠传统人工处理以及简单查询统计方法的数据处理模式已经无法适应新时代的需要了,如何从海量网络信息安全检测数据中挖掘发现有价值的信息,需要在网络信息安全策略中运用到数据挖掘的技术。 2数据挖掘的相关概念 2.1数据挖掘的定义 数据挖掘就是在一些没有规律、异构结构并且熟练庞大的数据中,通过相关的计算机方法及算法,提炼出具有不确定和未知性的信息的一种方法。数据挖掘的数据源应该是大量且真实的,所寻找出的信息应该是对我们有用的、具有价值的。理论上来说,数据量越大、越随机,数据挖掘所得到的结果就越准确、越具有代表性、越有价值,这就对数据挖掘的相关算法与技术的效率提出了很高的要求。数据挖掘是一门交叉学科,融合了数据库、人工智能、统计学、机器学习等多领域的理论与技术。数据库、人工智能与数理统计为数据挖掘的研究提供了三大技术支持。数据挖掘是将一些离散的、底层的、无序的大规模数据利用相关的技术手段提升到有序的、可接受的、有价值的知识,从而为决策提供帮助的一个过程。具体的说,数据挖掘是通过对大规模的海量数据进行分析,从中找出一些数据间的内在规律与联系。具体过程包括了数据准备、信息挖掘和结果表达三个阶段。 2.2数据挖掘的主要任务 数据挖掘的主要任务包括有监督学习(SupervisedLearning)、关联分析或频繁模式分析(FrequentPatternAnalysis)、聚类分析(ClusteringAnalysis)、异常检测(AnomalyDetection)等。 有监督学习包括两种形式:分类(Classification)和预测(Prediction),是指根据已知样本的大小、类型来预测新到样本。关联分析或频繁模式分析指的是找到某一事件发生时,另一事件也会发生的这样一种规律性的联系模式。聚类分析指的是将找出所有数据的一些内在规律及特征,并且按照这些特征将数据源划分成若干个数据簇。异常检测通过建立一个数据样本的范本,并将数据源中的数据与其进行比对分析,找出里面存在的异常样本。 3网络信息安全的相关概念 3.1网络信息安全的概念 网络信息安全问题的解决方案包括数据挖掘信息安全技术的应用和数据挖掘信息的安全的管理。管理是指根据事物发展的客观规律,通过综合运用人力资源和其他相关的资源,以便有效地实现组织目标的过程,是指在集体活动中,为了完成一定的任务,或者实现一个具体目标,针对特定的对象,遵循既定的原则,依照完善的程序,使用适当的方法,所进行的计划、组织、指挥、协调和控制的活动。比如,在网络安全控制方面,防火墙技术已被广泛应用,为了更好地发挥防火墙的安全保护作用,就必须考虑如何设置防火墙的安全策略,并对它的物理保护和访问控制进行设置。 3.2网络信息安全的相关技术 3.2.1爬虫技术 Web爬虫(Crawler)通常也被称为机器人(Robot)或者蜘蛛(Spider),它是一个能够自动下载网页的程序。互联网上有数以万计的网页,这些网页存在于分布在全球各地的各个服务器上。用户可以通过网页链接进行各个网页直接的切换和浏览,而爬虫正是模仿人的行为,将多个站点或者网页下载或存取,然后交给数据处理模块。 3.2.2结构化数据抽取 Web信息收取指的是从一个网页中分析目标信息。通常包括两个问题,第一个是从自然语言文本中抽取信息,第二个就是从网页的结构化数据中抽取信息。我们称抽取这种数据的程序为包装器(Wrapper),包装器有三种方法,分别是手工方法、包装器归纳、自动抽取。 3.2.3规则引擎技术 一旦数据获取了,我们就要对其进行处理和分析。常用的基于Python的规则引擎有几种。PyKE是一个基于知识的专家系统,采用类似于Prolog的语言规范。Prolog是一种逻辑编程语言,广泛应用于人工智能领域。Pychinko是一个可以处理语义网的规则引擎,它可以用RDF来定义。Intellect是一个基于领域描述语言(DomainSpecificLanguage,DSL)的规则引擎,可以定义一些规则表达式,来监测网络数据。规则引擎指的是一个创建、存储和管理规则,然后执行规则并推断出其它事实的应用程序。其中的规则主要是指企业或商务业务逻辑、法律条款等。在规则引擎发展的过程中,Rete算法和Prolog语言是两个重要的理论分支,多数规则引擎都是基于以上二者扩展而来的。在工业活动铸造中,发展时间较长、应用广泛的两个体系是Clips体系和Prolog体系。 4基于数据挖掘的网络信息安全策略 4.1安全的网络环境 安全的网络环境包括系统的安全性、防病毒和网络入侵检测、审计分析、网络备份和灾难的恢复等。具体措施如下:隔离和访问控制技术,包括物理和逻辑的隔离,可信与不可信网络的隔离,只允许有授权的用户访问网络资源;采用反病毒技术,病毒已经严重威胁到了网络的安全,它的威胁和破坏性是很难用数字估量的,建立病毒预警、病毒防护和应急机制,就显得尤其必要;网络入侵检测技术会及时对非法入侵者及恶意破坏者建立预警机制,并定期对网络系统进行安全性分析,发现并修正漏洞;分析审计,记录用户使用过程中的计算机网络系统,它不仅能够确定是谁访问了系统,还能记录系统的使用状态,确定是否有网络攻击,审计数据挖掘信息是非常重要的;网络备份和灾难恢复可以确保在最短的时间内使受到破坏的系统恢复可用。 4.2保证数据挖掘信息安全的策略 安全的数据挖掘信息指数据挖掘信息的存储安全、传输安全和使用安全。数据挖掘信息的物理完整性,逻辑完整性和保密性组成了数据挖掘信息的存储安全;并要通过数据传输加密技术、数据完整性技术和防抵赖性技术来保证数据挖掘信息传输的安全;数据挖掘信息的使用安全是指,为防止非授权主体擅自使用资源,必须对网络中的主体进行验证。 4.3基于数据挖掘的网络安全数据分析策略 4.3.1关联性分析 关联分析模型的含义是通过对攻击行为要素的归并和组合,结合数据挖掘相关技术,体现宏观网络上最热门的攻击行为态势。一次攻击行为中,(源地址、目的地址、攻击类型)三要素体现了攻击的本质,三要素任意指定和组合,都反应了有意义的网络攻击态势。 4.3.2事件预测机制 事件预测机制是通过对某一事件的发展趋势进行跟踪观测,运用数据挖掘聚类算法,判断其是否会成为大规模网络事件的模型。对于大规模的网络事件,其最具代表性的特点并不是事件发生的次数,而是其扩散趋势。例如连续观测到涉及同一类木马病毒事件的IP地址数量急剧上升,可能就是一次木马网络攻击事件。 4.3.3可控数量预测模型 可控数量预测模型是通过观察事件中受控主机状态增长数量,对事件的感染能力做出判断。受控主机状态增长指的是之前未检测到发出某类攻击的主机,通过检测被发现后的状态变化增长。例如对于某种病毒,若以前未检测到主机X受到过感染,但是在观测周期内发现了主机X已经被感染了病毒,那么对于该病毒而言,主机X就是其受控主机增长状态。 4.3.4分析处理模型 分析处理模型的作用在于对运营商的事件处理反馈进行分析,判断其对被控主机的处理能力。该模型从各运营商的被控主机、已处理主机、未处理主机以及处理效率等各方面进行综合评估,由此来分析判断运营商对其辖区内的被控主机处理能力。 |