NLTK使用Hive UDF

可以使用各种各样的方法,使NLTK运行在Hadoop上。通过进行词语标记,同时并行使用Hive UDF,探讨一个使用NLTK的示例。

对于这种用例,必须遵循以下步骤。

(1)我们已经选择了一个小数据集,在这个数据集中只有两列。必须使用Hive创建相同的模式(Schema)。

NLTK使用Hive UDF