KDD Cup'99 数据熟悉和特征分析

/* 以下结论来自10%的数据,做一个简单的了解*/

1. 检查文件共有42行,即42个特征,特征表格如下


2. 检查主要特征的内容包括:

2.1 protocol_type: symbolic. 协议类型包括三种

['tcp' 'udp' 'icmp']duration: continuous.

2.2 symbolic. service 目的地址的网络服务包括:

['http' 'smtp' 'finger' 'domain_u' 'auth' 'telnet' 'ftp' 'eco_i' 'ntp_u'
 'ecr_i' 'other' 'private' 'pop_3' 'ftp_data' 'rje' 'time' 'mtp' 'link'
 'remote_job' 'gopher' 'ssh' 'name' 'whois' 'domain' 'login' 'imap4'
 'daytime' 'ctf' 'nntp' 'shell' 'IRC' 'nnsp' 'http_443' 'exec' 'printer'
 'efs' 'courier' 'uucp' 'klogin' 'kshell' 'echo' 'discard' 'systat'
 'supdup' 'iso_tsap' 'hostnames' 'csnet_ns' 'pop_2' 'sunrpc' 'uucp_path'
 'netbios_ns' 'netbios_ssn' 'netbios_dgm' 'sql_net' 'vmnet' 'bgp' 'Z39_50'
 'ldap' 'netstat' 'urh_i' 'X11' 'urp_i' 'pm_dump' 'tftp_u' 'tim_i' 'red_i']

2.3 flag: symbolic flag连接是正确或错误的flag,有:

['SF' 'S1' 'REJ' 'S2' 'S0' 'S3' 'RSTO' 'RSTR' 'RSTOS0' 'OTH' 'SH']

2.4 src_bytes: continuous.

2.5 dst_bytes: continuous.

2.6 land :“1”表示如果连接来自/到相同的主机/端口

[0 1]

2.7 wrong_fragment: continuous.错误的片段数量number of ``wrong'' fragments,

[0 1 3]

2.8 urgent: continuous. 紧急数据包

[0 2 1 3]

2.9 hot: number of ``hot'' indicators continuous.指标数量

[ 0  1  3 19  6  4 30 24 14 18  2  5 17 22  7 16 12 20 10 28 15  9]

2.10 num_failed_logins: continuous.登录失败的尝试次数

[0 1 5 2 4 3]

2.11 logged_in: symbolic.“1”表示成功登录

[1 0]

2.12 num_compromised: continuous. number of ``compromised'' conditions “妥协”的条件数量 是通信质量的妥协吗?
[  0   2   1   4  16   3 767   7  22  21 238   6 281   5  11 275  12  18
  38  13 884   9 102]

2.13 root_shell: continuous. 1 if root shell is obtained; 0 otherwise 如果获得root权限,则该值为1

[0 1]

2.14 su_attempted: continuous.1 if ``su root'' command attempted; 0 otherwise discrete 有“2”是什么意思

[0 1 2] 

2.15 num_root: continuous.number of ``root'' accesses continuous 访问数量

[  0   2   1   3   9   5   6  16   4 857  39  12 268 278   7  14 306  54
 993 119]

2.16 num_file_creations: continuous.number of file creation operations continuous

[ 0  1  2  4 15  9 16 28 10 21 14  5  7  8 12 25 22 20]

2.17 num_shells: continuous.number of shell prompts 提示符的数量

[0 2 1]

2.18 num_access_files: continuous.number of operations on access control files 访问关键文件的次数

[0 1 2 4 6 3 8]

2.19 num_outbound_cmds: continuous.number of outbound commands in an ftp session ftp会话中出站命令的数量


2.20 is_host_login: symbolic.

2.21 is_guest_login: symbolic.



2.22 count: continuous.number of connections to the same host as the current connection in the past two seconds 与过去两秒内当前连接相同的主机连接数,相同host

Note: The following  features refer to these same-host connections.

2.23 srv_count: continuous.

number of connections to the same service as the current connection in the past two seconds continuous  相同服务

2.24 serror_rate: continuous.

% of connections that have ``SYN'' errors continuous 同步错误?相同host

2.25 srv_serror_rate: continuous.

% of connections to the same service continuous 相同服务

2.26 rerror_rate: continuous.

% of connections that have ``REJ'' errors continuous 拒绝访问?相同host

2.27 srv_rerror_rate: continuous.

% of connections that have ``REJ'' errors continuous 和上面有区别??相同服务

2.28 same_srv_rate: continuous.

% of connections to the same service continuous 相同host当中的相同服务

2.29 diff_srv_rate: continuous.

% of connections to different services continuous相同host当中的不同服务

2.30 srv_diff_host_rate: continuous. 相同服务中的不同host

2.31 dst_host_count: continuous.目的地相同吗

2.32 dst_host_srv_count: continuous.目的地相同吗

2.33 dst_host_same_srv_rate: continuous.

2.34 dst_host_diff_srv_rate: continuous.

2.35 dst_host_same_src_port_rate: continuous.

2.36 dst_host_srv_diff_host_rate: continuous.

2.37 dst_host_serror_rate: continuous.

2.38 dst_host_srv_serror_rate: continuous.

2.39 dst_host_rerror_rate: continuous.

2.40 dst_host_srv_rerror_rate: continuous.

3. 攻击类型分析


smurf.              280790
neptune.            107201
normal.              97277
back.                 2203
satan.                1589
ipsweep.              1247
portsweep.            1040
warezclient.          1020
teardrop.              979
pod.                   264
nmap.                  231
guess_passwd.           53
buffer_overflow.        30
land.                   21
warezmaster.            20
imap.                   12
rootkit.                10
loadmodule.              9
ftp_write.               8
multihop.                7
phf.                     4
perl.                    3
spy.                     2



    Port scan
    Idle scan
    Denial-of-service attack
        Man in the middle
        ARP poisoning
        Ping flood
        Ping of death
        Smurf attack
        Buffer overflow
        Heap overflow
        Stack overflow
        Format string attack

3.1 smurf. 属于DoS攻击的一种。

    Smurf攻击是一种分布式拒绝服务攻击,其中大量具有目标受害者的欺骗源IP的互联网控制消息协议(ICMP)数据包通过IP广播地址广播到计算机网络。 默认情况下,网络上的大多数设备都会通过向源IP地址发送回复来对此进行响应。 如果网络上接收和响应这些数据包的机器数量非常大,受害者的计算机将被流量淹没。 这可能会减慢受害者的计算机,使其无法工作。










3.2 neptune

与SYN Flood同义


3.3 back



用于分析网络的安全管理员工具(SATAN)是用于分析联网计算机的免费软件漏洞扫描程序。 SATAN吸引了广泛的技术观众的注意力,出现在PC杂志[1],并从美国司法部提出威胁[1]。 它提供了一个Web界面,包含输入目标的表单,显示结果的表格以及发现漏洞时出现的上下文相关教程。

3.5 ipsweep


3.6 portsweep

端口扫描器是旨在探测服务器或主机的开放端口的应用程序。 管理员经常使用这种方法来验证其网络的安全策略,并且攻击者通过识别在主机上运行的网络服务并利用漏洞。

端口扫描或端口扫描是将客户端请求发送到主机上的一系列服务器端口地址的过程,其目标是找到活动端口; 这并不是一个邪恶的过程。[1] 端口扫描的大部分用途不是攻击,而是确定远程计算机上可用服务的简单探测。


3.7 warezclient


3.8 teardrop.

    泪滴攻击涉及将重叠的超大有效载荷发送到目标机器。这可能会导致各种操作系统崩溃,因为它们的TCP / IP碎片重新组装代码存在错误。 Windows 3.1x,Windows 95和Windows NT操作系统以及版本2.0.32和2.1.63之前的Linux版本都容易受到此攻击。

(尽管在2009年9月,Windows Vista中的一个漏洞被称为“泪滴攻击”,这是针对比泪滴使用的TCP数据包更高层的SMB2)[57] [58]。

    IP报头中的一个字段是“片段偏移量”字段,指示包含在分段数据包中的数据相对于原始数据包中数据的起始位置或偏移量。如果一个分片数据包的偏移量和大小之和不同于下一个分片数据包的偏移量和大小之和,则数据包重叠。发生这种情况时,容易受到泪滴攻击的服务器无法重新组装数据包 - 从而导致拒绝服务状况。

3.9 pod

Ping of death 攻击是一种会影响许多过去的操作系统的攻击方式。根据研究报告许多系统在接受到过大的IP数据包时会产生不可预料的异常。常见的异常情况包括系统崩溃、死机和重启。

3.10 nmap


也就是Network Mapper,最早是Linux下的网络扫描和嗅探工具包。

3.11 guess_passwd


3.12 buffer_overflow



3.13 Land



3.14 warezmaster.           


3.15 imap

攻击者(没有目标机器的用户帐号) 通过网络发送数据包到目标机器利用系统漏洞获取本地访问权限,从而如同系统的本地用户一样操纵目标机器。


3.16 rootkit.


3.17 loadmodule.

攻击者以一般用户(可能通过嗅探 密码,密码字典猜解等方式获得) 的身份登录到目标机器,然后利用系 统漏洞获得系统的管理员 (root) 权限。最常见的攻击方式为缓冲区 溢出。

U2R:User to Root

3.18 ftp_write.               

也是R2L 的一种

3.19 multihop.               

3.20 phf.   


3.21 perl. 


3.22 spy. 


4. 按照攻击类型和它的分类,结合5个数据例子查看其主要变化的特征

