在理解MALLET实例对象中的数据字段时遇到问题

在理解MALLET实例对象中的数据字段时遇到问题

问题描述:

当前我正在处理一个项目,并且正在使用来自MALLET API的CsvIterator创建一个InstanceList。但是,我不确定MALLET实例对象中的数据字段应该如何格式化。我试图将从一行文本解析的数据写入文件。在理解MALLET实例对象中的数据字段时遇到问题

我知道数据字段通常是InstanceList中的FeatureVector对象,但我只是不确定CsvIterator在寻找什么。

谢谢。

对于分类或主题建模,输入文件中的“数据”字段应该看起来像原始文档,其中空格替换换行符。

马勒如何理解“数据”字段取决于您使用的管道。这些类定义了将字符串输入转换为FeatureVector的规则。

Csv2Vectors类中实现的默认行为例如根据正则表达式将字符串分为标记,然后将每个标记字符串转换为数据字母表中的特征。有许多管道对象用于许多常见的转换,例如下套管和禁止删除。