如何在scikit-learn中插入具有范畴数据类型的列

问题描述：

我有一个数据集，其中包含数字和要素中的对象。另外，对象数据类型的某些功能缺少值。我创建了Imputer的修改版本（按照另一篇文章中的说明）来处理数字和类别数据类型的缺失值，但是当我应用到我的数据集时，它会返回AttributeError。我相信我在定义适应方法的定义时犯了一个愚蠢的错误，我感谢你的洞察力。这里是我的代码和错误：如何在scikit-learn中插入具有范畴数据类型的列

import os 
import pandas as pd 
import numpy as np 
from sklearn.preprocessing import Imputer 

#load the data 
path='~/Desktop/ML/Hands_on/housing_train.csv' 
path=os.path.expanduser(path) 
data=pd.read_csv(path) 

#select the columns_names including dtype=object && missing data 
object_data=data.select_dtypes(include=['object']) 
object_data_null=[] 
for col in object_data.columns: 
    if object_data[col].isnull().any(): 
     object_data_null.append(col) 

class GeneralImputer(Imputer): 
    def __init__(self, **kwargs): 
     Imputer.__init__(self, **kwargs) 

    def fit(self, X, y=None): 
     if self.strategy == 'most_frequent': 
      self.fills = pd.DataFrame(X).mode(axis=0).squeeze() 
      self.statistics_ = self.fills.values 
      return self 
     else: 
      return Imputer.fit(self, X, y=y) 

    def transform(self, X): 
     if hasattr(self, 'fills'): 
      return pd.DataFrame(X).fillna(self.fills).values.astype(str) 
     else: 
      return Imputer.transform(self, X) 

imputer=GeneralImputer(strategy='most_frequent', axis=1) 

for i in object_data_null: 
    imputer.fit(data[i]) 
    data[i]=imputer.transform(data[i]) 


--------------------------------------------------------------------------- 
AttributeError       Traceback (most recent call last) 
<ipython-input-29-989e78355872> in <module>() 
    38 object_data_null 
    39 for i in object_data_null: 
---> 40  imputer.fit(data[i]) 
    41  data[i]=imputer.transform(data[i]) 
    42 

<ipython-input-29-989e78355872> in fit(self, X, y) 
    23   if self.strategy == 'most_frequent': 
    24    self.fills = pd.DataFrame(X).mode(axis=0).squeeze() 
---> 25    self.statistics_ = self.fills.values 
    26    return self 
    27   else: 

AttributeError: 'str' object has no attribute 'values'

答

对于1级物体的squeeze()方法将返回一个缩放对象为mentioned in the documentation

因此，这意味着，对于大多数的时间（这恰好为所有列），列的模式将是单个对象，然后squeeze（）将只返回字符串。

所以没有必要得到.values之后。改变你的fit（）方法删除：

def fit(self, X, y=None): 
    if self.strategy == 'most_frequent': 
     self.fills = pd.DataFrame(X).mode(axis=0).squeeze() 

     # Removed .values from the below line 
     self.statistics_ = self.fills 
     return self

非常感谢@Vivek Kumar –

如何在scikit-learn中插入具有范畴数据类型的列

相关推荐