使用CountVectorizer连接自定义功能
问题描述:
我有一堆文件与文章。对于每篇文章应该有一些功能,如:文本长度,text_spam(都是整数或浮点数,并且在大多数情况下它们应该从csv加载)。我想要做的是 - 将这些功能与CountVectorizer结合起来,然后对这些文本进行分类。使用CountVectorizer连接自定义功能
我看过一些教程,但我仍然不知道如何实现这个东西。发现了一些东西here,但实际上无法实现这个我的需要。
任何想法如何可以用scikit完成?
谢谢。
我碰上了现在的问题是:
from sklearn.feature_extraction import DictVectorizer
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.pipeline import FeatureUnion
measurements = [
{'text_length': 1000, 'text_spam': 4.3},
{'text_length': 2000, 'text_spam': 4.1},
]
corpus = [
'some text',
'some text 2 hooray',
]
vectorizer = DictVectorizer()
count_vectorizer = CountVectorizer(min_df=1)
first_x = vectorizer.fit_transform(measurements)
second_x = count_vectorizer.fit_transform(corpus)
combined_features = FeatureUnion([('first', first_x), ('second', second_x)])
对于这串代码,我不知道如何加载“真实”数据,因为训练集已加载。第二个 - 如何加载类别(适合函数的y参数)?
答
您误会了FeatureUnion
。它应该采取两个变压器,而不是两批样品。
你可以强制它处理你有的向量化器,但是把每个样本的所有特征放入一个大袋子并用一个单独的DictVectorizer
来制作这些袋子中的载体要容易得多。
# make a CountVectorizer-style tokenizer
tokenize = CountVectorizer().build_tokenizer()
def features(document):
terms = tokenize(document)
d = {'text_length': len(terms), 'text_spam': whatever_this_means}
for t in terms:
d[t] = d.get(t, 0) + 1
return d
vect = DictVectorizer()
X_train = vect.fit_transform(features(d) for d in documents)
不要忘了sklearn.preprocessing.Normalizer
正常化这一点,并意识到,即使正常化后,这些text_length
特征必然会主宰在规模上的其他功能。用1./text_length
或np.log(text_length)
代替它可能更明智。
第二个 - 如何加载类别(适合函数的参数为
y
)?
取决于您的数据是如何组织的。 scikit-learn有很多帮助函数和类,但是如果你的设置不标准,它确实希望你编写代码。