NLP和ML短语提取

问题描述:

可以使用什么ML算法来训练给定句子中的动作短语。NLP和ML短语提取

Sentence1:I want to play cricket 
Label1: play cricket 

Sentence2: Need to wash my clothes 
Label2: wash clothes 

我有一些〜2K句&相应的字句(标签)数据和需要预测基于这些句子的另一个一堆。有人可以指导我如何使用NLP/ML来做到这一点吗?哪一个Algo的使用相同? (最好是蟒蛇)

看看NLTK的Naive Bayes Classifier, 它是多类的,你可以直接给它提供句子/标签对。

NaiveBayesClassifier.train()将需要培训功能,我会开始 与功能只是在每个句子中的单词。您可以使用更复杂的方法修改特征选择,直到获得您想要的结果。

您可以使用nltk.classify.util.accuracy评估结果。记住将你的句子分成训练和测试数据。

这里的句子分类的过程:)

1规范化文本 - 把所有的文本为小写

2)删除所有停用词 - 确保只有相关的功能都留下

3 )令牌化的句子在unigram令牌

4)应用所产生的技术 - 尝试不同而产生的模型/ lemmatizer把话说到他们的基数词。看看哪一个最适合你的情况。例如:播放,播放,播放将转换为基本词“播放”。这一步减少了功能的数量。

5)创建一个术语文档矩阵的所有句子。 TDM的每一行对应于一个句子,并且TDM的每一列对应于句子的标记。 (有代表矩阵的所谓TF-IDF的格式文本的另一种方式)

6)这个名词现在文件基体中含有标记为列。你已经有了标签。您现在可以开始训练ML模型。我假设你知道如何做到这一点。