NLP和ML短语提取

问题描述：

可以使用什么ML算法来训练给定句子中的动作短语。NLP和ML短语提取

Sentence1:I want to play cricket 
Label1: play cricket 

Sentence2: Need to wash my clothes 
Label2: wash clothes

我有一些〜2K句&相应的字句（标签）数据和需要预测基于这些句子的另一个一堆。有人可以指导我如何使用NLP/ML来做到这一点吗？哪一个Algo的使用相同？（最好是蟒蛇）

答

看看NLTK的Naive Bayes Classifier, 它是多类的，你可以直接给它提供句子/标签对。

NaiveBayesClassifier.train()将需要培训功能，我会开始与功能只是在每个句子中的单词。您可以使用更复杂的方法修改特征选择，直到获得您想要的结果。

您可以使用nltk.classify.util.accuracy评估结果。记住将你的句子分成训练和测试数据。

答

这里的句子分类的过程：）

1规范化文本 - 把所有的文本为小写

2）删除所有停用词 - 确保只有相关的功能都留下

3 ）令牌化的句子在unigram令牌

4）应用所产生的技术 - 尝试不同而产生的模型/ lemmatizer把话说到他们的基数词。看看哪一个最适合你的情况。例如：播放，播放，播放将转换为基本词“播放”。这一步减少了功能的数量。

5）创建一个术语文档矩阵的所有句子。 TDM的每一行对应于一个句子，并且TDM的每一列对应于句子的标记。（有代表矩阵的所谓TF-IDF的格式文本的另一种方式）

6）这个名词现在文件基体中含有标记为列。你已经有了标签。您现在可以开始训练ML模型。我假设你知道如何做到这一点。