根据人口统计信息对用户进行分类

问题描述:

我正在从事个人项目,只是为了好玩。基本上,我已经收集了拥有大约就像每个国家的人口信息的数据:根据人口统计信息对用户进行分类

德国74%,男性26%,女性10%的已婚16%Age_30-35 40%等

现在我想做的是当我获得新用户,我看到该用户所在的国家并尝试预测用户的信息,即用户是否为已婚并且年龄在30-35岁的男性(仅举例)。

我的问题是我该如何做出这样的预测,我不能只是制定一个规则,如果一个国家有超过50%的男性,这个国家的新用户也是男性。基本上我想知道如何决定能够帮助我确切预测用户人口统计的价值。

这不是一个真正的预测,而是一个概率问题,因为如果您具有所描述的值,则可以计算所有概率。

下面是一个例子:

Male population = 74% 
People married = 16% 
People between 30-35 = 40% 

要获得一个新的德国用户的概率是男性,已婚,之间30-35岁你执行以下操作:

P(Male|Married|30-35) = p(Male) * p(Married) * p(30-35) 
P(Male|Married|30-35) = 0,74 * 0,16 * 0,40 = 0,04736 ~ 4,7% 

你不需要更多的计算。如果你想自动分类所有用户,我建议你看看Naive Bayes Classification

+0

非常感谢。这很有帮助。 – user2175104