聚类算法的功能缩放（规范化）（如Kmeans＆EM）

问题描述：

我想使用KMeans聚类算法分析配置文件数据。示例数据的格式为：聚类算法的功能缩放（规范化）（如Kmeans＆EM）

Features: name ISBN  Date    ID  price .... 
      'A' '31NDB' '05/18/2014' 'CBDDN' 12.00 
      'B' '3241B' '08/19/2012/ 'ABCDE' 33.08

这些仅仅是示例，实际数据不一定是这种格式。但是如果需要对这组数据应用聚类算法，那么特征缩放又如何可以规范化部分呢？我应该如何处理字符串值和日期值以及价格（双倍）值？这些值之间是否存在关系？我很困惑...

任何想法？

答

K均值和EM值为数字仅用于数据。

将它们应用于名称/日期/价格类型的数据没有多大意义。

顾名思义，该算法需要计算均值。你如何计算你的“名称”列中的平均值？你可以砍掉日期的某些东西，但不能用于名称。

工作错误的工具。

那么应该是什么工具？对于非数字数据？假设我想将类似的书分组在一起？或者，假设我正在分析服务器日志文件.... – JudyJiang 2014-10-31 11:24:27

使用例如主题建模，这些主题建模旨在处理稀疏的文本数据，并根据是否存在单词重叠功能。 – 2014-10-31 17:30:12

答

您必须将非数字特征编码为数字。分类或序数特征就是这种情况。此外，如果某些功能对您的分析不重要，请考虑将它们丢弃。例如，如果您尝试集群图书，则购买日期可能不重要（或者可能是，取决于您所关注的内容），因此添加日期无效。例如，你可以将它编码为3个变量[1,0,0]，[0,1,0]，[0,0,1]，或者将其编码为3个变量作为2个变量[0,0]，[1,0]，[0,1]。关于这个here有更多的讨论。

请注意，由于您的KMeans/GMM（因为您避开EM）将计算点之间的距离，所以正确的编码尤为重要。了解它们的含义，尤其是在使用不同的功能规范化方案时，并尝试使用不同的功能来查看结果。

所以我必须将这些值（以某种方式）转换为数值？说，日期---日期号，和名称字符串---（使用一些函数..）并且还找到它们之间的关系..？ – JudyJiang 2014-10-31 11:25:51

对不起，我可能没有什么意义，新的机器学习..有什么方法或来源，我可以读？谢谢！ – JudyJiang 2014-10-31 11:26:24

聚类算法的功能缩放（规范化）（如Kmeans＆EM）

相关推荐