R语言基础
R包:
R包相当于针对R的插件,可以满足不同的需求
安装:
1. install.packages(“ggplot2”)
2. 本地安装(需要解决包依赖问题)
Linux:下载对应tar.gz文件
R CMD INSTALL *.tar.gz
3. GitHub安装
library(devtools)
install_github('sinhrks/ggfortify')
4. Bioconductor安装
source("http://bioconductor.org/biocLite.R")
biocLite("mypackage")
载入:
library(ggplot2)
数据结构:
1. 向量:一维数组(单个向量中的数据必须拥有相同的类型)
a<-c(1,2,4)
b<-c(“one”,two”)
c<-c(TRUE,FALSE)
2. 矩阵是二维数组(每个元素拥有相同的模式)
matrix(vector, nrow, ncol, byrow, dimnames=list(char_vector_rownames,char_vector_colnames)
nrow, ncol: 指定行和列的维数
byrow: =T则表明矩阵应该按行填充(默认按列填充)
3. 数组与矩阵类似,但是维度可以大于2
Myarray<-array(vector,dimensions,dimnames)
dimensions: 数值型向量,给出给个维度下标最大值
4. 数据框
数据框的不同的列可以包含不同类型的数据
mydata <-data.frame(col1,col2,col3,…)
5. 列表
mylist<-list(object1,object2,…) 其中对象可以为目前为止讲到的任何结构
6. 因子
因子:类别(名义型)变量和有序类别(有序型)变量
名义型是没有顺序之分的类别变量
有序型变量表示一种顺序关系,而非数量关系
可以这么理解:如果把数字作为因子,在后续计算中不再作为数值,而是一个“符号”
数据输入:
从带分隔符的文本文件导入数据
mydataframe<-read.table(file, options)
Grades<-read.table(“student.csv”,header=T,sep=“,”,stringsAsFactors=F)
header: 文件是否有列名
sep: 分割符
stringsAsFactors:读入数据是否需要转化成因子