根据人口统计信息对用户进行分类
问题描述:
我正在从事个人项目,只是为了好玩。基本上,我已经收集了拥有大约就像每个国家的人口信息的数据:根据人口统计信息对用户进行分类
德国74%,男性26%,女性10%的已婚16%Age_30-35 40%等
现在我想做的是当我获得新用户,我看到该用户所在的国家并尝试预测用户的信息,即用户是否为已婚并且年龄在30-35岁的男性(仅举例)。
我的问题是我该如何做出这样的预测,我不能只是制定一个规则,如果一个国家有超过50%的男性,这个国家的新用户也是男性。基本上我想知道如何决定能够帮助我确切预测用户人口统计的价值。
答
这不是一个真正的预测,而是一个概率问题,因为如果您具有所描述的值,则可以计算所有概率。
下面是一个例子:
Male population = 74%
People married = 16%
People between 30-35 = 40%
要获得一个新的德国用户的概率是男性,已婚,之间30-35岁你执行以下操作:
P(Male|Married|30-35) = p(Male) * p(Married) * p(30-35)
P(Male|Married|30-35) = 0,74 * 0,16 * 0,40 = 0,04736 ~ 4,7%
你不需要更多的计算。如果你想自动分类所有用户,我建议你看看Naive Bayes Classification。
非常感谢。这很有帮助。 – user2175104