如何评估分类结果：

方法：Cranfield创造检验校正：
ground truth:可以重复检验不同的系统，进行比较。
比较系统分类的结果
比较系统决策：哪个文档应该属于哪个分类；作者设定了哪些分类给文档
量化决定的相似度；等价衡量系统输出和理想输出之间的不同
比较方法时可以不考虑误差差异，允许误差的存在。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

分类正确率：衡量正确决定率的基础

人决定：正确（+）；错误（-）
系统决定：正确（Y）；错误（N）
分类正确率=人决定和系统决定相同的个数/总的决定个数=Y（+）+N（-）/KN
分类正确率越大越好
文本挖掘与分析第五周学习笔记2--评估文本分类结果
缺点：
平均审视每一个决定：错误的种类可能不同，不能平均审视。例如：合法邮件被丢弃远比垃圾邮件被接收更令人无法接受，因为垃圾邮件还是可以接受收到。

所以使用分类正确率作为准则，要确保分类上司平衡的。

使用其他角度方法：精确度和查全率

FN：假负
FP：假正
TN：真负
TP：真正
精确度：P=TP/(TP+FP)：测量当系统说对时，有多少正确率。
查全率：R=TP/(TP+FN)：测量是否所有的文档都有该有的分类。

文本挖掘与分析第五周学习笔记2--评估文本分类结果

精确度和查全率组合：

受参数B控制，
当B=1时，为F1；采用相同的权重看待精确度和查全率。
使两个值相等。当P和R一个为1一个为0时，F1会出奇的小，但平均值会合理的高。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

第二部分

1.所有分类的宏平均

求所有文档的所有分类的精确度P、查全率R、F1的算术平均和几何平均
算术平均值受高值支配；几何平均值受低值支配。（高值与低值哪个重要是一个问题。）
文本挖掘与分析第五周学习笔记2--评估文本分类结果

2.精确度和查全率的微平均

存在的问题：平等的对待所有例子。
宏平均比微平均更能体现信息，能反映应用程序所需要的每个分类或者每个文档的性能理解
文本挖掘与分析第五周学习笔记2--评估文本分类结果

分类结果也可能从排名预期中得到评估

这是因为分类结果有时或通常会以不同的目的传递给人类。
1 )它可能被传递给人类进行进一步编辑。例如，新闻文章可以通过使用一个系统来进行分类，然后由人工编辑来更正它们。
2 )所有的电子邮件信息可能都是正确的人在帮助台处理。在这种情况下，分类将有助于优先处理特定客户服务人员的任务。因此，在这种情况下，结果必须优先考虑。
如果系统不能给分类决策提供一个分数，那么我们就可以使用分数来对这些决策进行排序，然后将结果作为一个排名列表来评估，就像在搜索引擎中一样。在负责的查询中对文档进行排序。
1)例如，可以对垃圾邮件的发现进行评估。基于垃圾邮件类别的排名邮件。这很有用，如果你想让人们验证这是不是真的垃圾邮件,然后，这个人就会逐个检查，然后验证这是不是真的垃圾邮件。因此，为了在这样的任务中反映人类的效用，最好是评估排名Chris，这基本上类似于一次搜索。
2)问题可以更好地表述为排序问题，而不是分类问题。例如，在搜索引擎中排序文档也可以被作为二进制分类问题，区分对用户有用的相关文档，而不是有用的，但通常我们将其作为排序问题，并将其作为一个等级列表进行评估。这是因为人们倾向于检查结果。

从用户的角度来看，排名评价更多地反映了效用。所以总结分类评价，首先评价对所有这些任务都是非常重要的。
文本挖掘与分析第五周学习笔记2--评估文本分类结果

小结：

可能会被误导，相信一种方法比另一种方法好，但事实并非如此,所以正确的做法很重要。
度量还必须反映特定应用程序的预期使用结果。例如，在垃圾邮件过滤和新闻分类中，结果会以不同的方式使用。因此，我们需要适当地考虑差异和设计措施。
我们通常需要考虑用户如何进一步处理结果，并从用户的角度进行思考。重要的品质是什么?什么方面的质量是重要的?
有时，在精度和回忆等多个方面之间存在权衡，因此我们需要知道这个应用程序的高召回率更重要，或者更高的精度更重要。理想情况下，我们把不同的成本与不同的决策箭头联系起来。这当然要以特定的方式设计。
以下是一些常用的相对比较方法。
分类精度，通常用于平衡。分数是常见的，报告描述了性能，给定角度，给我们一些每一个文档基础，然后取平均值，不同的方法微观和宏观，总的来说，你需要从多个角度来看待结果，对于特定的应用，一些观点会比其他的更重要，但是要对分类方法进行诊断和分析。一般来说，尽可能多地查看方法或两种方法之间的细微差别是很有用的，因为在这种情况下，方法可能比较弱，因此可以通过改进方法获得视觉效果。
有时排序可能更合适，所以有时分类会得到更好的框架作为排序任务，也有机器运行方法来优化排序措施。