理解LDA牵涉很多算法和思想,马尔科夫链蒙特卡洛算法(MCMC)、吉布斯采样(Gibbs Sampling)、Gammer函数、贝塔分布、狄利克雷分布(Dirichlet)、多项式分布、EM算法、马尔科夫链……
这里仅从图解的角度理解LDA算法原理,图1是整体LDA生成文档的过程,主要讲解图2,如图2,首先看到LDA变量联合概率分布,α(Alpha)与β(Beta)服从狄利克雷分布,(为什么选择狄利克雷,从图这里很明显可以感受狄利克雷分布的优势可以将文档中主题和词语的可以进行有效分割),假设我们事先准确知道主题及主题数量,事实上主题是最后根据词结合对数据的理解,人为定义,这里只是方便表述图示,第一步,主题1对某个文档根据狄利克雷分布生成主题,主题1=0.7science+0.1politics+0.2sports,到主题2,从主题2方框里随机又放回的抽取主题,根据主题1概率分布,会得到一堆主题,显然是满足多项式分布的,到这里我们已经知道主题了。第二步,词语1根据狄利克雷分布生成,我们可以看出蓝色球的为science主题,对应的词分布science = 0.4Galaxy+0.4Planet+0.1Ball+0.1Referendum,那对应的词语2有相应的词语,这个时候如何将主题与词语联系起来?这个时候从主题2随机选取主题,接着从词语2挑选,循环多次,这个时候生成了一个新的文档。图2展示的是生成1个新文档的过程,实际根据生成原始文档,会生成一系列的文档集合,这里记做A1,调整α与β的值,会生成新的文档集合A2、A3……,现在比较A1、A2……文档与源文档的相同程度,理论上生成相同的概率特别低,这里比较小概率下那个文档相同程度更高一点,相同程度高一点对应的设置α与β才是最佳参数,也正是我们需要的最佳主题,图3所示。
图1

图2

图3

狄利克雷(Dirichlet)与多项式分布满足共轨分布,样本信息前先验概率分布与后验分布均属于同一分布
吉布斯采样(Gibbs Sampling),是MCMC算法的一种变形,对于未知的概率分布或者难以直接抽样获得的分布确定联合分布,但需要知道每个变量的条件概率分布,同时满足容易抽样,来模拟联合分布,常用于统计推断,这里对LDA联合概率分布的隐变量进行推断。如图公式,吉布斯采样做的是将给定主题条件下选择词语的最大化的概率。

如图吉布斯采样解决的问题是尽可能的将文章和文字尽趋近单色,选择Doc1的ball,Topic3出现在Doc1出现两次同时选择的ball在Topic3出现了3次,为了避免出现0值出现,我们加入α和β伪数字,这时候发现ball属于Topic3的概率最大,这时候我们将ball这个词变成红色,通过不断循环将每个词进行着色,最后得出结果,Topic1中的出现plant和galaxy,我们可以将其定义为Science这个主题。

缺点:
1.不适用短文本,由于LDA将文档建模为主题混合,后从主题从提取相对应的词,这里提取相应的词,类似于你从黑盒子里抽取一些球,只有抽取的球足够多,才能推断黑盒子里的球颜色的分布,如果词很少,很难推断参数,
2.需要不断调整模型参数,才能凝练出合适的主题
其实无监督模型(包括聚类算法)对数据质量还是有一定的要求,根据经验,除了保证数据的干净外,越是差异化的大的数据,越是能得到比较好的效果,这要求使用者对数据有足够的敏感度,上来套模型大概率会得不到满意效果
代码演示及结论解释


这里遇到一个很奇怪的问题,明明是主题25的时候得分最高,是否选择主题25,首先主题一致性得分(Coherence Value)是一个存在争议的问题,它不是标准做法,只是辅助选择合适的主题数量而已,根据经验选择主题6更加合适


解读一下结果,这里可以看出
主题1(37.5%):主要讲诉客户入住过程(入住渠道、前台、入住时间、入住价格等词)
主题2(26.3%):客户更多讲诉入住感受(早餐、服务员、设施、方便等词)
……
这个由人为定义去定义的,
这里有个反直觉的地方,入住感受占比应该是最高的,为什么入住过程反而占比最高,推测主要由于评论数据都是精选评论,就是表述又长又详细,将自己旅行过程全部分享一遍的那种评论


当然这里可以通过不断调节模型,可进一步挖掘里面的隐藏信息,比如调节超参数、优化分词等,这里还可以尝试引入Tf-idf,将词的重要性考虑进去,网上有很多人也是这样做的,sklearn里的LDA是有一点争议,但可以适当尝试一下
到此这篇lda主题模型主题个数(lda主题算法)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/bcyy/30854.html