转置数据帧后R变量类型发生变化

问题描述：

我一直对R中变量类型感到困惑。现在我在转置数据帧后遇到了一个问题。转置数据帧后R变量类型发生变化

例如，我使用table()得到各因子的数量在一定的载体：

data(iris) 

count <- as.data.frame(table(iris$Species)) 
typeof(count$Var1) 
# [1] "integer" 

typeof(count$Freq) 
# [1] "integer"

我的第一个问题是，为什么count$Var1“整数”？字符串是否也可以是“整数”？但这并不重要，因为我可以通过count$Var1 <- as.character(count$Var1)更改类型，然后typeof(count$Var1)变成“字符”。

现在我转置此数据帧transposed_count <- as.data.frame(t(count))。但我感到困惑，因为：

typeof(transposed_count[1,]) 
[1] "list" 

typeof(transposed_count[2,]) 
[1] "list" 

transposed_count[2,] 
    V1 V2 V3 
Freq 50 50 50

对于后续的使用，我需要transposed_count[2,]是一个数值向量，如：

transposed_count[2,] 
[1] 50 50 50

我怎么能这样做？为什么他们成为t()之后的“名单”？对不起，如果这是一个愚蠢的问题。谢谢！

答

我的第一个问题是，为什么是count$Var1“整数”？

由于因素是具有整数存储类型

> is.factor(count$Var1) 
[1] TRUE

和虹膜data.frame的“串”，如R中典型被存储作为因子。

为什么他们成为t()后的“名单”？

当你转置你得到一个矩阵，并且矩阵必须为每个条目具有相同的存储类别。你实际首先得到的是一个字符矩阵，因为整数值将被强制。然后，当您随后更改为data.frame时，这些字符将默认强制为（新）因素。

> t(count) 
    [,1]  [,2]   [,3]  
Var1 "setosa" "versicolor" "virginica" 
Freq "50"  "50"   "50" 

> transposed_count <- as.data.frame(t(count)) 

> transposed_count[2,1] 
Freq 
    50 
Levels: 50 setosa 
> as.numeric(transposed_count[2,1]) 
[1] 1

那么现在计数为50的数值是1的一个因子！不是你想要的。

至于为什么typeof(transposed_count[1,])是一个列表？作为data.frame的水平切片，它实际上是一个data.frame。

> is.data.frame(transposed_count[2,]) 
[1] TRUE

而data.frames只是带有类信息的列表。

但是我怎样才能得到一个“转置”的数据帧呢？

这听起来像你可能想

> library(reshape2) 
> dcast(melt(count), variable~Var1) 
Using Var1 as id variables 
    variable setosa versicolor virginica 
1  Freq  50   50  50

后，我读了所有的样品，我会rbind所有的数据帧

你必须确保列适当排队。根据分析的结果，rbind可能更为自然，就像另一列显示来源一样。

> count2 <- count 
> count$source = "file1" 
> count2$source = "file2" 
> (mcount <- rbind(count,count2)) 
     Var1 Freq source 
1  setosa 50 file1 
2 versicolor 50 file1 
3 virginica 50 file1 
4  setosa 50 file2 
5 versicolor 50 file2 
6 virginica 50 file2

现在你不用担心对齐如果你想重塑后

> dcast(melt(mcount), ...~Var1) 
Using Var1, source as id variables 
    source variable setosa versicolor virginica 
1 file1  Freq  50   50  50 
2 file2  Freq  50   50  50

感谢您的解释！对我来说变得更加清晰。但是，我怎样才能得到一个“转置”的数据框呢？ – Yan

我正在读一堆文件，每个文件作为每个样本。最后，我需要一个数据框，其中行是样本，列是每个文件/样本中每个元素的数量。所以在我读完所有的样本之后，我会去掉所有的数据框。这就是为什么我需要它转置。我将把“Var1”作为最终数据框的名称。 – Yan

正如@RomanLuštrik推断的那样，您可能正在从'reshape2'库中寻找类似'dcast（melt（count），...〜Var1）'的东西。但是，根据您的分析结果，更自然的形状可能是以原始格式“绑定”数据，并添加具有文件/样本指标的另一列。这会给你一个“堆叠”的格式。 –

答

typeof会告诉你R如何在内部存储数据。对于因素，这是整数。而Var1是一个因素，看？

> class(count$Var1) 
[1] "factor"

transposed_counts在这种情况下是没有意义的。通过转置您销毁data.frame逻辑。移位通常对矩阵有意义。如果你想“回流”一个数据框，你可以使用类似reshape或其亲戚的东西。

感谢您的回答！ – Yan

答

如果使物种名称在VAR1为行名前调换你避免转置问题将所有内容转换为相同的数据类型。

data(iris) 
count <- as.data.frame(table(iris$Species)) 
row.names(count) <- count$Var1 
count$Var1 <- NULL 
transposed_count <- as.data.frame(t(count)) 
as.numeric(transposed_count[1,]) 
# [1] 50 50 50

转置数据帧后R变量类型发生变化

相关推荐