1.数学知识背景:
(1)Γ函数:
Γ函数是阶乘在实数集上的推广
Γ(x)=∫0+∞tx−1e−tdt=(x−1)!Γ(x)=(x−1)⋅Γ(x−1)⇒Γ(x−1)Γ(x)=x−1
(2)Beta分布:
Beta分布概率密度函数:
f(x)={B(α,β)1xα−1(1−x)β−1,0,x∈[0,1]其他
其中系数B为:
B(α,β)=∫01xα−1(1−x)β−1dx=Γ(α+β)Γ(α)Γ(β)
Beta分布的期望:
E(X)=∫01x⋅B(α,β)1xα−1(1−x)β−1dx=B(α,β)1∫01x(α+1)−1(1−x)β−1dx=B(α,β)B(α+1,β)=Γ(α)Γ(β)Γ(α+β)/Γ(α+1)Γ(β)Γ(α+β+1)=α+βα
Beta分布图像:
(3)共轭先验分布
由于x为给定样本,P(x)有时被称为证据,紧紧是归一化因子,如果不关心P(θ∣x)的具体值,只考察θ取何值时后验概率P(θ∣x),则可以将分母去掉。
P(θ∣x)=P(x)P(x∣θ)P(θ)∝P(x∣θ)P(θ)
在贝叶斯概率理论中,如果后验概率P(θ∣x)和先验概率p(θ)满足同样的分布律,则先验分布和后验分布叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
(4)共轭先验分布举例
(i)两点分布/二项分布的共轭先验分布是Beta分布
根据似然和先验:
P(x∣θ)=Cnk⋅θk⋅(1−θ)n−kP(θ∣α,β)=B(α,β)1θα−1(1−θ)β−1
计算后验概率:
P(θ∣x)=P(x)P(x∣θ)⋅P(θ)∝P(x∣θ)⋅P(θ)=(Cnkθk(1−θ)n−k)⋅(B(α,β)1θα−1(1−θ)β−1)=B(α,β)Cnkθ(k+α)−1(1−θ)(n−k+β)−1∝B(k+α,n−k+β)1θ(k+α)−1(1−θ)(n−k+β)−1
后验概率是参数为(k+α,n−k+β)的Beta分布,即:伯努利分布/二项分布的共轭先验是Beta分布。参数α,β是决定参数θ的参数,即超参数,在后验概率的最终表达式中,参数α,β和k以及n-k一起作为参数θ的指数–后验概率的参数为(k+α,n−k+β)。
(ii)多项分布的共轭先验分布是Dirichlet分布
多项分布,是二项分布扩展到多维的情况. 多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3…,k).概率密度函数为:
P(x1,x2,…,xk;n,p1,p2,…,pk)=x1!…xk!n!p1x1…pkxk
Dirichlet分布如下:
f(p∣α)={Δ(α)1∏k=1Kpkαk−1,pk∈[0,1]0,其他
其中,Δ(α)=Γ(∑k=1Kαk)∏k=1KΓ(αk)
Dirichlet分布期望:
f(p∣α)=Δ(α)1k=1∏Kpkαk−1,p∈[0,1]⇒E(pi)=∑k=1Kαkαi
对称Dirichlet分布:
Dir(p∣α,K)=ΔK(α)1k=1∏Kpkα−1
其中,
ΔK(α)=Γ(K⋅α)ΓK(αk)
对称Dirichlet分布参数分析:
α=1退化为均匀分布,α>1时,p1=p2=…=pk的概率增大,
α<1时,pi=1,p非i=0的概率增大。
2.LDA介绍
(1)LDA应用方向:
朴素贝叶斯可以胜任许多文本分类的问题,但是无法解决语料中一词多义和多次一意的问题,是一种词法分析,并非语义分析。如果使用词向量作为文档的特征,一词多义和多
信息提取和搜索:语义分析
文档分类/聚类,文章摘要,社区挖掘
(2)LDA的解释:
共有m篇文章,一共涉及了K个主题;
每篇文章(长度为Nm)都有各自的主题分布,主题分布式多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为α;
每个主题都有各自的词分布,此分布为多项分布,该多项分布的参数服从Dirichlet分布,该Dirichlet分布的参数为β;
对于某篇文章中的第n个词,首先从该文章中的主题分布中采样一个主题,然后在个主题对应的词分布中采样一个词,不断重复整个随机生成过程,直到m篇文章全部完成上述过程。
字典*有V个term(不可重复的),这些term出现在具体的文章中,就是word,在具体文章中的word当然是有可能重复的;
语料库*有m篇文档d1,d2…dm;
对于文档di,由Ni个word组成,可重复;
语料库*有K个主题T1,T2…Tk;
α和β为先验分布的参数,一般事先给定:如取0.1的对称Dirichlet分布,表示在参数学习结束后,期望每个文档的主题不会十分集中。
θ是每篇文档的主题分布,对于第i篇文档di的主题分布是 θ1=(θ11,θ12⋯,θiK),是长度为K的向量;
对于第i篇文章di,在主题分布θi下,可以确定一个具体的主题Z1j=K,k∈[1,K];
φk表示第k个主题分布的词分布,k∈[1,K],对于第K个主题Tk的词分布φk=(φk1,φk2…φkv),是长度为v的向量;
由Zij选择φzij,
(3)LDA推导:
(i)参数的学习
给定一个文档的集合,Wmn是可以观测到的已知变量,α 和 β都是根据经验给定的先验参数,其他的变量
Zmn⋅θ,φ都是未知的隐含变量,需要根据观测到的变量来学习估计的,根据LDA的图模型,可以写出所有变量的联合分布:
p(wm,zm,ϑm,Φ∣α,β)=∏n=1Nmp(wm,n∣φzmn)p(zm,n∣ϑm)⋅p(ϑm∣α)⋅p(Φ∣β)
(ii)似然概率
一个词Wmn初始化为一个词t的概率是
p(wm,n=t∣ϑm,Φ)=k=1∑Kp(wm,n=t∣φk)p(zm,n=k∣ϑm)
每个文档中出现主题k的概率乘以主题k下出现词t的概率,然后枚举所有主题求和得到整个文档集合的似然函数为:
p(W∣Θ,Φ)=m=1∏Mp(wm∣ϑm,Φ)=m=1∏Mn=1∏Nmp(wm,n∣ϑm,Φ)