tensorflow feature_column详解

关于 feature_column官网说的还比较少，其它说明大多数都是直接翻译官网解释，很明显，达不到效果，现在对feature_column进行说明，更详细的说明，可以参照github：

https://github.com/AlbertBJ/tensorflow-summary

此外，我还对 estimator进行了总结以及如何使用的例子，github:

https://github.com/AlbertBJ/estimator

欢迎star

下面大概说一下 fc（feature_column）的作用，

tensorflow feature_column详解

这是官方的对 fc在 tf的life time的定义：fc原始数据和estimator模型之间的桥梁

下面这张图也是从官方来的，关于 fc的分类的，这个结构很重要，因为下面有的function的参数类型是有特定要求的。

tensorflow feature_column详解

1。先说一下 input layer

tf.feature_column.input_layer(

features,

feature_columns,

weight_collections=None,

trainable=True,

cols_to_vars=None,

cols_to_output_tensors=None

)

使用 input_layer 作为model的一个 input layer

features:字典，最主要的是 dict的key一定要与 feature_columns的key一致，后续才能才能根据key进行匹配

feature_columns：改参数必须是继承于DenseColumn的numeric_column, embedding_column, bucketized_column, indicator_column。如果feature是类别的，那么必须先用embedding_column or indicator_column封装一下使用.注意此处fc要求的类型。

2。tf.feature_column.numeric_column

numeric_column这个api没有什么可多说的，就是用来标识feature类型，以及 normalization的操作。要记住，为什么需要这个api，因为进入 nn的数据必须是数字类型的，关于参数说明，以及例子，见github

3.categorical_column_with_*

这几个方法都是将原始数据转换为类别数据的API,比如，将 '男'，‘女’分别标示为0,1。在github上对每一个 API都有操作和说明

4。 tf.feature_column.indicator_column

tf.feature_column.indicator_column(categorical_column)

参数：

必须是categorical_column，如上面图可知，只有 categorical_column_with_* ,crossed_column 以及bucketized_column 类型的column 才可以使用该函数

作用：将 categorical_column表示成 multi-hot形式的 dense tensor。

下面官方还特意提到了一点就是：

indicator_column 可以将任意的 categorical_column_with_*作为参数（同我上面说的一致），

但是，如果说 buckets/unique（分箱，或者 ont-hot）的值比较大的时候，还是建议使用 embedding_column

5。 tf.feature_column.bucketized_column

tf.feature_column.bucketized_column(

source_column,

boundaries

)

分箱，目的是离散化数据，比如将年龄字段划分为少年，青年，壮年以及老年

参数：

source_column: numeric_column

boundaries: 边界列表，形成左闭右开区间，比如 [1,2,3],那么拆分后的边界将是 (-inf,1),[1,2),[2,3),[3,+inf) 四个区间

6。 tf.feature_column.crossed_column

tf.feature_column.crossed_column(

keys,

hash_bucket_size,

hash_key=None

)

说明：该函数的作用主要是通过笛卡尔积产生新的特征；然后经过hash算法产生最终特征：Hash(特征的笛卡尔积) % hash_bucket_size

参数：

keys：指明那些 feature 需要进行合并形成新的特征，注意，该值的类型可以是 string(也就是数据集的column),也可以是经过变换后的 categoricalColumn, but,不支持 hashed categorical

hash_bucket_size: 分箱的长度，可以理解为合并后数据的列数

7。 tf.feature_column.embedding_column

tf.feature_column.embedding_column(

categorical_column,

dimension,

combiner='mean',

initializer=None,

ckpt_to_load_from=None,

tensor_name_in_ckpt=None,

max_norm=None,

trainable=True

)

该方法和indicator_column一样，只接受 categorical_column,目的是将稀疏矩阵转换为稠密矩阵， word2vec

参数：

categorical_column:入参categorical_column_with_*的返回

dimension: embedding 的维度，一般计算规则是类别开4次方，但是也可以根据需要自行设置

combiner: 多个 vector的组合方式，有 mean(default),sqrtn以及sum

initializer:embedding matrix的初始化值，默认均值0，标准差 1/sqrt(dimension)的tf.truncated_normal_initializer

ckpt_to_load_from以及tensor_name_in_ckpt 主要是为了使用pre-trained embedding matrix

max_norm: if not 'None'，则使用l2 归一化

trainable: 是否可训练的

详见上面 github地址

知乎：https://zhuanlan.zhihu.com/albertwang

微信公众号：AI-Research-Studio

tensorflow feature_column详解

下面是赞赏码

tensorflow feature_column详解

tensorflow feature_column详解

相关推荐