Liblinear如何使用它

问题描述:

我在机器学习和文本挖掘方面相当新。它引起了我的注意,出现了一个名为Liblinear的红宝书库https://github.com/tomz/liblinear-ruby-swigLiblinear如何使用它

我到目前为止想做的事情是训练软件,以确定文本是否提及任何与自行车相关的事情。

有人可以强调我应该遵循的步骤(即:预处理文本和如何),共享资源,理想情况下共享一个简单的示例让我走。

任何帮助将做,谢谢!

最经典的方法是:

  1. 收集输入文本的有代表性的样品,每一个标记为相关/无关。
  2. 将样本分成训练集和测试集。
  3. 提取培训集所有文档中的所有术语;称之为词汇表,V
  4. 对于训练集中的每个文档,将其转换为布尔值的矢量,其中'th元素为真/ 1,如果该词汇表中的词语出现在文档中。
  5. 将矢量化训练集提供给学习算法。

现在,要对文档进行分类,请按照步骤4对其进行分类,并将其馈送到分类器以获取相关/不相关的标签。将它与实际标签进行比较,看它是否正确。用这种简单的方法你应该能够获得至少80%的准确度。

要改进此方法,请使用文档长度规范化的术语计数替换布尔值,或者更好的方法是将tf-idf分数更正。

+0

谢谢你,虽然我希望能有一个更实用的例子来说明如何预处理文档... – mabounassif 2011-05-24 23:30:43