相似度计算,关键词提取,标准化方法,sigmoid
几种相似度方法:
jaccard适合离散型的,评分不适合,
欧几里得距离,需要保证量纲一样
余弦相似度:更加注重方向上而非距离上
皮尔森(person)相关系数:利用向量间的线性相关性表示用户相似度,
https://www.cnblogs.com/bethansy/p/9544293.html
皮尔逊相关系数:两个变量之间的皮尔逊相关系数定义为两个变量之间的协方差和标准差的商:
上式定义了总体相关系数,常用希腊小写字母 ρ (rho) 作为代表符号。估算样本的协方差和标准差,可得到样本相关系数(样本皮尔逊系数),常用英文小写字母 r 代表:
r 亦可由 样本点的标准分数均值估计,得到与上式等价的表达式:
相关系数越高越好,越小越不相关
适用范围:
(1)、两个变量之间是线性关系,都是连续数据。
(2)、两个变量的总体是正态分布,或接近正态的单峰分布。
(3)、两个变量的观测值是成对的,每对观测值之间相互独立。
https://blog.****.net/qq_30142403/article/details/82350628
关键词提取的方法:
tf-idf方法,忽略词序,词义
textrank,
word2vec+kmeans
,
日推音乐《春天的芭蕾》