Liblinear如何使用它
问题描述:
我在机器学习和文本挖掘方面相当新。它引起了我的注意,出现了一个名为Liblinear的红宝书库https://github.com/tomz/liblinear-ruby-swig。Liblinear如何使用它
我到目前为止想做的事情是训练软件,以确定文本是否提及任何与自行车相关的事情。
有人可以强调我应该遵循的步骤(即:预处理文本和如何),共享资源,理想情况下共享一个简单的示例让我走。
任何帮助将做,谢谢!
答
最经典的方法是:
- 收集输入文本的有代表性的样品,每一个标记为相关/无关。
- 将样本分成训练集和测试集。
- 提取培训集所有文档中的所有术语;称之为词汇表,V。
- 对于训练集中的每个文档,将其转换为布尔值的矢量,其中'th元素为真/ 1,如果该词汇表中的词语出现在文档中。
- 将矢量化训练集提供给学习算法。
现在,要对文档进行分类,请按照步骤4对其进行分类,并将其馈送到分类器以获取相关/不相关的标签。将它与实际标签进行比较,看它是否正确。用这种简单的方法你应该能够获得至少80%的准确度。
要改进此方法,请使用文档长度规范化的术语计数替换布尔值,或者更好的方法是将tf-idf分数更正。
谢谢你,虽然我希望能有一个更实用的例子来说明如何预处理文档... – mabounassif 2011-05-24 23:30:43