如何使用python&NLTK提取评论的子主题句子?

如何使用python&NLTK提取评论的子主题句子?

问题描述:

有没有什么有效的方式使用Python提取审核的子课题的解释和NLTK library.As为例关于手机可能是“这款手机的电池是好的,但显示是胡说八道” 我想上述两种提取的用户评价功能如如何使用python&NLTK提取评论的子主题句子?

"Battery is good" 
"display is a bullshit" 

上面的目的是要开发产品的功能相对于产品的评分系统。 分析极性部分已经完成。 但提取的审核功能是一些困难me.But我找到了一种方法使用POS标签图案用正则表达式来提取功能,如

<NN.?><VB.?>?<JJ.?> 

这种模式为子topic.But问题有可能是大量的根据用户描述模式进行评论中的模式。

有什么办法可以有效地解决我的问题吗? 谢谢!

你提出的问题是多方面的,而不是直接的回答。

从概念上讲,你可能要经过以下几个步骤:

  1. 识别的手机的功能的名称(+可能创建一个基于这些功能的本体)。

  2. 创建同义词的名单功能名称(类似的评价词组,例如漂亮的,糟糕的,太烂了,等)。

  3. 使用NLTK标注器的一个解析评论。

  4. 创建的特征提取及其评估(信息提取部分)的规则。我不确定NLTK是否可以直接支持你。

  5. 评估和改进的办法。

或者:创造一个更大的标注语料库和培养使用TensorFlow,Theano,或其他任何东西都就可以了深入的学习模式。

+0

我已经经历了这些步骤,但事情是定义规则(根据你的步骤4)。可能会有不同的POS模式人们使用。有什么方法可以自动生成这些模式(因为我不需要提取选定的模式) –

+0

坏消息。为IE创建规则通常是工作中最平凡的部分,很少有任何事情可以自动提取它们。这就是为什么深度学习在这项任务中找到如此多支持者的原因。 – sophros

+0

你能提一下这个任务的任何相关教程吗?谢谢 –