R语言学习

1. 前言 

前段时间,做些性能测试,需要画出一些测试结果图。简单学习了一下R语言,发现其很强大,因此在亚馬逊上买了3本关于R语言基础和用于数据挖掘方面的书籍。R在数理统计和数据挖掘提供了很多的类库,在进行这方面的分析都比较简单。

 无论在CentOS上或在Ubuntu上,安装R语言比较简单。在网上都有相关的资料,熟悉Linux系统都能很快地安装成功。

 下面我将列出我学习的数据集及其相关例子。

 2. 画图表

下面的数据集是分析每个请求的Latency,共有1024*1024个样本。第一列是样本序号,第二列是所耗时间(单位为nanosecond),它们用逗号分开:

0,420607

1,213869

2,214064

3,208029

... ...

1378,35022

1379,132206522

1380,50514

... ...

1048573,6418

1048574,6331

1048575,6104

绘简单的二维图表,R语言如下:

A <- read.table("sequentialWrite.txt", sep=",", col.names=c("seq", "nanos"), nrows=10000)
A$micros <- A$nanos/1000
A$nanos <- NULL
plot(A, type='l', xlab='Sequence', ylab='Latency', main='Latency per Request (Unit: Microsecond)')

 如下图:

 

R语言学习

 从图表上可以看出,绝大多数样本的Latency很小,有极少数样本值很大,导致即使采样1000条,也很难从图表上估测出这些样本值。为了使图表更加好看,应该只在图表上显示出规定的Latency值区间。R语言中的gap.plot函数可以解决这个问题。

3. 数理统计

 续...

4. 数据挖掘

 

 续...