Gender Prediction in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline

2018.6.19英语-印地语代码混合社交媒体内容的性别预测:语料库和基线系统。

数据集、代码、及演示界面https://github.com/taspinar/twitterscraper

Abstract   

剖析作者摘要是通过文本自动确定作者性别、年龄等方面的问题,在计算机语言学中越来越受到重视。很多用户在社交媒体上发布叫做代码混合的文章时经常会改变语言,这在文本分类和作者剖析方面提出了一些挑战,如拼写、非语法结构和音译等很少有英语-印地语代码混合的注释数据集显示在线的社交媒体内容

本文分析了作者在代码混合内容中的性别预测任务,并提出了一套从Twitter上收集的带有作者性别标注的英语-印地语文本语料库。我们还探讨了语料库中每个词的语言识别。我们提出了一个监督的分类基线系统,它使用各种机器学习算法来识别作者使用文本的性别,基于字符和词级特征。

Keywordsauthor profiling, code-mixing, language detection, linguistics,  SVM, random forest

3 Dataset and Annotation Scheme

4 System Architecture

1)第一步,预处理语料库,以空格划分单词,将单词标记为 En(英语)、Hi(印度语)、0(标点符号)三类,并去除标点符号

2)第二步,分类特征。描述用于构建属性向量的特性,以训练我们的分类模型2字符和字级特征用于分类

Character N-grams模型(https://en.wikipedia.org/wiki/N-gram),选择特征时不用考虑语言因素。不需要任何预处理和以前的知识,如标记、词干和停词删除。通过在语聊库中至少出现10次的n克才会减少语料库的大小。

Bag of words模型(https://blog.****.net/wsj998689aa/article/details/4

7089153),对于文本分类这个模型比N-grames模型更加对语言因素没要求。我们将其作为实验的一个特征来分析它在性别预测中的表现。

Reference tokens模型,我们识别了在一个性别中出现超过60%并且在语料库集中出现超过5次的标记,并将它们作为分类模型的特征。根据[15],有一些令牌区分男性和女性,因此存储指示令牌可以提供更好的分类。我们计算了每个令牌的值与属于类的令牌频率的比值,以及令牌在语料库中的总频率。我们为印地语和英语单词制作了单独的字典,并从每个字典中获取了引用标记。对于性别预测,只有这些令牌作为分类特征,>= 0.6,在训练语料库中至少出现两次。

Naive Bayes(朴素贝叶斯算法)https://blog.****.net/syoya1997/article/

details/78618885

(3)Classification Approach and Results

以往的研究表明,在文本分类和情感分析中,支持向量机和随机森林分类器比其他机器学习模型提供了更好的结果由于所形成的特征向量的大小很大,我们采用了卡方特征选择算法,将特征向量的大小减小到1000在我们的系统中,我们使用了使用rbfSVM在高维特征向量的情况下,有高效的性能为了训练我们的系统分类器我们使用了Scikit-learn(机器学习算法库)。文章试用了三种不同的分类器,SVM with radial basis function kernel支持向量机具有径向基函数核)、random forest and naive bayes classifier。

我们训练的分类器有两个不同的场景,在一个案例中特征向量形成基于印地语单词和英语单词在推特上,后来结合训练分类器,但他们没有表现良好而独立于语言的特征向量在第二种情况下

我们对4015个代码混合推文进行了10倍交叉验证,将语料库分为10个等分,9个部分作为训练语料库,一个用于测试。由于tweets是由少数用户收集的,所以我们确保用户的所有tweets必须在培训数据或测试数据中出现,以便性别分类不应该基于该用户多次使用的特定词汇。最后以每次迭代的精度均值作为分类模型的最终精度。表1描述了在使用不同分类器训练时每个特性的准确性。

所有的实验都是在每个分类模型上进行网格搜索。在进行了所有的实验后,我们观察到在所有分类模型中,特征n克都表现得更好,并且在内核支持向量机中给出了89.7%的最高精度。随机森林分类器在特征为n克的情况下表现最差,但在分类器的训练过程中,当所有特征都被采用时,随机森林分类器的表现要好于朴素贝叶斯分类器。径向基函数核支持向量机的性能最好,准确率为89.5%

Gender Prediction in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline

 Gender Prediction in English-Hindi Code-Mixed Social Media Content : Corpus and Baseline 

5 Conclusion and Future Work

在这项工作中,我们介绍了一个免费的性别检测数据集,用于代码混合文本。该数据集由4015条带有性别和语言标签的英语-印地语混合推文组成。在对数据集进行注释之后,我们发现了一些有趣的信息。女性比男性更倾向于使用标点和标签。在我们的数据集中,女性推文中的hashtag的平均数量是男性推文的两倍。类似地,女性在推特上平均使用三个标点,而男性则用一个。推文中标点和标签的数量可以包含在分类特性中,以改进分类。在收集的推文的基础上,女性推文的平均字数为20,与男性推文的平均字数相同,因此在分类中使用字数作为特征是没有用的。我们包括了关于印度社会和政治问题的推文,但是这个数据集可以扩展到包括各种其他话题的推文,如体育和娱乐。此外,我们计划用部分语音(POS)标记对数据集进行注释,这将有助于理解代码混合句的结构,并可以在作为分类的特性时产生更好的结果。

本文所描述的注释和实验也可用于包含多语种社会中两种以上语言的代码混合文本,在未来的实验中使用神经网络进行分类也将是一件有趣的事情。将训练与代码混合的tweet与训练与合并的英语和印地语单语tweet数据集进行比较,可能是一项有趣的未来工作。

ConferenceKhandelwal, A., Swami, S., Akhtar, S.S., Shrivastava, M.: Classification Of Spanish Election Tweets (COSET) 2017: Classifying Tweets using Character and Word Level Features. In: Proceedings of the Second Workshop on Evaluation of Human Language Technologies for Iberian Languages (IberEval 2017). CEUR Workshop Proceedings. CEUR-WS.org, Murcia (Spain) (September 19 2017)。