聚类算法的功能缩放(规范化)(如Kmeans&EM)
问题描述:
我想使用KMeans聚类算法分析配置文件数据。示例数据的格式为:聚类算法的功能缩放(规范化)(如Kmeans&EM)
Features: name ISBN Date ID price ....
'A' '31NDB' '05/18/2014' 'CBDDN' 12.00
'B' '3241B' '08/19/2012/ 'ABCDE' 33.08
这些仅仅是示例,实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法,那么特征缩放又如何可以规范化部分呢?我应该如何处理字符串值和日期值以及价格(双倍)值?这些值之间是否存在关系?我很困惑...
任何想法?
答
K均值和EM值为数字仅用于数据。
将它们应用于名称/日期/价格类型的数据没有多大意义。
顾名思义,该算法需要计算均值。你如何计算你的“名称”列中的平均值?你可以砍掉日期的某些东西,但不能用于名称。
工作错误的工具。
答
您必须将非数字特征编码为数字。分类或序数特征就是这种情况。此外,如果某些功能对您的分析不重要,请考虑将它们丢弃。例如,如果您尝试集群图书,则购买日期可能不重要(或者可能是,取决于您所关注的内容),因此添加日期无效。例如,你可以将它编码为3个变量[1,0,0],[0,1,0],[0,0,1],或者将其编码为3个变量作为2个变量[0,0],[1,0],[0,1]。 关于这个here有更多的讨论。
请注意,由于您的KMeans/GMM(因为您避开EM)将计算点之间的距离,所以正确的编码尤为重要。了解它们的含义,尤其是在使用不同的功能规范化方案时,并尝试使用不同的功能来查看结果。
那么应该是什么工具?对于非数字数据?假设我想将类似的书分组在一起?或者,假设我正在分析服务器日志文件.... – JudyJiang 2014-10-31 11:24:27
使用例如主题建模,这些主题建模旨在处理稀疏的文本数据,并根据是否存在单词重叠功能。 – 2014-10-31 17:30:12