文本挖掘与分析第五周学习笔记2--评估文本分类结果

如何评估分类结果:

方法:Cranfield创造检验校正:
ground truth:可以重复检验不同的系统,进行比较。
比较系统分类的结果
比较系统决策:哪个文档应该属于哪个分类;作者设定了哪些分类给文档
量化决定的相似度;等价衡量系统输出和理想输出之间的不同
比较方法时可以不考虑误差差异,允许误差的存在。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

分类正确率:衡量正确决定率的基础

人决定:正确(+);错误(-)
系统决定:正确(Y);错误(N)
分类正确率=人决定和系统决定相同的个数/总的决定个数=Y(+)+N(-)/KN
分类正确率越大越好
文本挖掘与分析第五周学习笔记2--评估文本分类结果
缺点:
平均审视每一个决定:错误的种类可能不同,不能平均审视。例如:合法邮件被丢弃远比垃圾邮件被接收更令人无法接受,因为垃圾邮件还是可以接受收到。

所以使用分类正确率作为准则,要确保分类上司平衡的。

使用其他角度方法:精确度和查全率

FN:假负
FP:假正
TN:真负
TP:真正
精确度:P=TP/(TP+FP):测量当系统说对时,有多少正确率。
查全率:R=TP/(TP+FN):测量是否所有的文档都有该有的分类。

文本挖掘与分析第五周学习笔记2--评估文本分类结果

精确度和查全率组合:

受参数B控制,
当B=1时,为F1;采用相同的权重看待精确度和查全率。
使两个值相等。当P和R一个为1一个为0时,F1会出奇的小,但平均值会合理的高。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

第二部分

1.所有分类的宏平均

求所有文档的所有分类的精确度P、查全率R、F1的算术平均和几何平均
算术平均值受高值支配;几何平均值受低值支配。(高值与低值哪个重要是一个问题。)
文本挖掘与分析第五周学习笔记2--评估文本分类结果
文本挖掘与分析第五周学习笔记2--评估文本分类结果

2.精确度和查全率的微平均

存在的问题:平等的对待所有例子。
宏平均比微平均更能体现信息,能反映应用程序所需要的每个分类或者每个文档的性能理解
文本挖掘与分析第五周学习笔记2--评估文本分类结果

分类结果也可能从排名预期中得到评估

  1. 这是因为分类结果有时或通常会以不同的目的传递给人类。
    1 )它可能被传递给人类进行进一步编辑。例如,新闻文章可以通过使用一个系统来进行分类,然后由人工编辑来更正它们。
    2 )所有的电子邮件信息可能都是正确的人在帮助台处理。在这种情况下,分类将有助于优先处理特定客户服务人员的任务。因此,在这种情况下,结果必须优先考虑。
  2. 如果系统不能给分类决策提供一个分数,那么我们就可以使用分数来对这些决策进行排序,然后将结果作为一个排名列表来评估,就像在搜索引擎中一样。在负责的查询中对文档进行排序。
    1)例如,可以对垃圾邮件的发现进行评估。基于垃圾邮件类别的排名邮件。这很有用,如果你想让人们验证这是不是真的垃圾邮件,然后,这个人就会逐个检查,然后验证这是不是真的垃圾邮件。因此,为了在这样的任务中反映人类的效用,最好是评估排名Chris,这基本上类似于一次搜索。
    2)问题可以更好地表述为排序问题,而不是分类问题。例如,在搜索引擎中排序文档也可以被作为二进制分类问题,区分对用户有用的相关文档,而不是有用的,但通常我们将其作为排序问题,并将其作为一个等级列表进行评估。这是因为人们倾向于检查结果。

从用户的角度来看,排名评价更多地反映了效用。所以总结分类评价,首先评价对所有这些任务都是非常重要的。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

小结:

  • 可能会被误导,相信一种方法比另一种方法好,但事实并非如此,所以正确的做法很重要。
  • 度量还必须反映特定应用程序的预期使用结果。例如,在垃圾邮件过滤和新闻分类中,结果会以不同的方式使用。因此,我们需要适当地考虑差异和设计措施。
  • 我们通常需要考虑用户如何进一步处理结果,并从用户的角度进行思考。重要的品质是什么?什么方面的质量是重要的?
  • 有时,在精度和回忆等多个方面之间存在权衡,因此我们需要知道这个应用程序的高召回率更重要,或者更高的精度更重要。理想情况下,我们把不同的成本与不同的决策箭头联系起来。这当然要以特定的方式设计。
  • 以下是一些常用的相对比较方法。
    分类精度,通常用于平衡。分数是常见的,报告描述了性能,给定角度,给我们一些每一个文档基础,然后取平均值,不同的方法微观和宏观,总的来说,你需要从多个角度来看待结果,对于特定的应用,一些观点会比其他的更重要,但是要对分类方法进行诊断和分析。一般来说,尽可能多地查看方法或两种方法之间的细微差别是很有用的,因为在这种情况下,方法可能比较弱,因此可以通过改进方法获得视觉效果。
  • 有时排序可能更合适,所以有时分类会得到更好的框架作为排序任务,也有机器运行方法来优化排序措施。
    文本挖掘与分析第五周学习笔记2--评估文本分类结果