NLP和ML短语提取
问题描述:
可以使用什么ML算法来训练给定句子中的动作短语。NLP和ML短语提取
Sentence1:I want to play cricket
Label1: play cricket
Sentence2: Need to wash my clothes
Label2: wash clothes
我有一些〜2K句&相应的字句(标签)数据和需要预测基于这些句子的另一个一堆。有人可以指导我如何使用NLP/ML来做到这一点吗?哪一个Algo的使用相同? (最好是蟒蛇)
答
看看NLTK的Naive Bayes Classifier, 它是多类的,你可以直接给它提供句子/标签对。
NaiveBayesClassifier.train()
将需要培训功能,我会开始 与功能只是在每个句子中的单词。您可以使用更复杂的方法修改特征选择,直到获得您想要的结果。
您可以使用nltk.classify.util.accuracy评估结果。记住将你的句子分成训练和测试数据。
答
这里的句子分类的过程:)
1规范化文本 - 把所有的文本为小写
2)删除所有停用词 - 确保只有相关的功能都留下
3 )令牌化的句子在unigram令牌
4)应用所产生的技术 - 尝试不同而产生的模型/ lemmatizer把话说到他们的基数词。看看哪一个最适合你的情况。例如:播放,播放,播放将转换为基本词“播放”。这一步减少了功能的数量。
5)创建一个术语文档矩阵的所有句子。 TDM的每一行对应于一个句子,并且TDM的每一列对应于句子的标记。 (有代表矩阵的所谓TF-IDF的格式文本的另一种方式)
6)这个名词现在文件基体中含有标记为列。你已经有了标签。您现在可以开始训练ML模型。我假设你知道如何做到这一点。