转置数据帧后R变量类型发生变化
我一直对R中变量类型感到困惑。现在我在转置数据帧后遇到了一个问题。转置数据帧后R变量类型发生变化
例如,我使用table()
得到各因子的数量在一定的载体:
data(iris)
count <- as.data.frame(table(iris$Species))
typeof(count$Var1)
# [1] "integer"
typeof(count$Freq)
# [1] "integer"
我的第一个问题是,为什么count$Var1
“整数”?字符串是否也可以是“整数”?但这并不重要,因为我可以通过count$Var1 <- as.character(count$Var1)
更改类型,然后typeof(count$Var1)
变成“字符”。
现在我转置此数据帧transposed_count <- as.data.frame(t(count))
。但我感到困惑,因为:
typeof(transposed_count[1,])
[1] "list"
typeof(transposed_count[2,])
[1] "list"
transposed_count[2,]
V1 V2 V3
Freq 50 50 50
对于后续的使用,我需要transposed_count[2,]
是一个数值向量,如:
transposed_count[2,]
[1] 50 50 50
我怎么能这样做?为什么他们成为t()
之后的“名单”?对不起,如果这是一个愚蠢的问题。谢谢!
我的第一个问题是,为什么是
count$Var1
“整数”?
由于因素是具有整数存储类型
> is.factor(count$Var1)
[1] TRUE
和虹膜data.frame
的“串”,如R中典型被存储作为因子。
为什么他们成为
t()
后的“名单”?
当你转置你得到一个矩阵,并且矩阵必须为每个条目具有相同的存储类别。你实际首先得到的是一个字符矩阵,因为整数值将被强制。然后,当您随后更改为data.frame
时,这些字符将默认强制为(新)因素。
> t(count)
[,1] [,2] [,3]
Var1 "setosa" "versicolor" "virginica"
Freq "50" "50" "50"
> transposed_count <- as.data.frame(t(count))
> transposed_count[2,1]
Freq
50
Levels: 50 setosa
> as.numeric(transposed_count[2,1])
[1] 1
那么现在计数为50的数值是1的一个因子!不是你想要的。
至于为什么typeof(transposed_count[1,])
是一个列表?作为data.frame的水平切片,它实际上是一个data.frame。
> is.data.frame(transposed_count[2,])
[1] TRUE
而data.frames只是带有类信息的列表。
但是我怎样才能得到一个“转置”的数据帧呢?
这听起来像你可能想
> library(reshape2)
> dcast(melt(count), variable~Var1)
Using Var1 as id variables
variable setosa versicolor virginica
1 Freq 50 50 50
后,我读了所有的样品,我会rbind所有的数据帧
你必须确保列适当排队。根据分析的结果,rbind
可能更为自然,就像另一列显示来源一样。
> count2 <- count
> count$source = "file1"
> count2$source = "file2"
> (mcount <- rbind(count,count2))
Var1 Freq source
1 setosa 50 file1
2 versicolor 50 file1
3 virginica 50 file1
4 setosa 50 file2
5 versicolor 50 file2
6 virginica 50 file2
现在你不用担心对齐如果你想重塑后
> dcast(melt(mcount), ...~Var1)
Using Var1, source as id variables
source variable setosa versicolor virginica
1 file1 Freq 50 50 50
2 file2 Freq 50 50 50
typeof
会告诉你R如何在内部存储数据。对于因素,这是整数。而Var1
是一个因素,看?
> class(count$Var1)
[1] "factor"
transposed_counts
在这种情况下是没有意义的。通过转置您销毁data.frame逻辑。移位通常对矩阵有意义。如果你想“回流”一个数据框,你可以使用类似reshape
或其亲戚的东西。
感谢您的回答! – Yan
如果使物种名称在VAR1为行名前调换你避免转置问题将所有内容转换为相同的数据类型。
data(iris)
count <- as.data.frame(table(iris$Species))
row.names(count) <- count$Var1
count$Var1 <- NULL
transposed_count <- as.data.frame(t(count))
as.numeric(transposed_count[1,])
# [1] 50 50 50
感谢您的解释!对我来说变得更加清晰。但是,我怎样才能得到一个“转置”的数据框呢? – Yan
我正在读一堆文件,每个文件作为每个样本。最后,我需要一个数据框,其中行是样本,列是每个文件/样本中每个元素的数量。所以在我读完所有的样本之后,我会去掉所有的数据框。这就是为什么我需要它转置。我将把“Var1”作为最终数据框的名称。 – Yan
正如@RomanLuštrik推断的那样,您可能正在从'reshape2'库中寻找类似'dcast(melt(count),...〜Var1)'的东西。但是,根据您的分析结果,更自然的形状可能是以原始格式“绑定”数据,并添加具有文件/样本指标的另一列。这会给你一个“堆叠”的格式。 –