对比传统K-Means等聚类算法，LDA主题模型在文本聚类上有何优缺点

如题所述

推荐答案 2017-09-12

K-MEANS算法:k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。具体如下：输入：k,data[n];（1）选择k个初始中心点，例如c[0]=data[0],…c[k-1]=data[k-1];（2）对于data[0]….data[n],分别与c[0]…c[n-1]比较，假定与c[i]差值最少，就标记为i;（3）对于所有标记为i点，重新计算c[i]=/标记为i的个数；（4）重复(2)(3),直到所有c[i]值的变化小于给定阈值。算法实现起来应该很容易，就不帮你编写代码了。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://77.wendadaohang.com/zd/G8pNIYW3GY3q83INqWv.html

相似回答

对比传统K-Means等聚类算法,LDA主题模型在文本聚类上有何优缺点答：K-MEANS算法:k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。k-means算法的工作过程说明如下：首先从n个数据对象...

对比传统K-Means等聚类算法,LDA主题模型在文本聚类上有何优缺点答：简单说聚类指事先没标签通某种团析找事物间存聚集性原程区别类事先定义类别类别数变类器需要由工标注类训练语料训练属于指导习范畴聚类则没事先预定类别类别数确定聚类需要工标注预先训练类器类别聚类程自类适合类别或类体系已经确定场合比按照图类类图书；聚类则适合存类体系、类别数确定场合般作...

短文本主题建模方法答：LDA 是最常用的主题提取模型之一,因为该模型能够处理多种类型的文本数据,而且模拟的拟合效果非常易于解释。直观上来看,LDA 根据不同文档中词语的共现频率来提取文本中潜在的主题信息。另一方面,具有相同主题结构的文本之间往往非常相似,因此我们可以根据潜在的主题空间来推断词语之间的相似性和文档之间的相似性。 LDA ...

01 主题模型 - 大纲答：主题模型是机器语言在自然语言处理中的一个应用，主要做的是无监督的任务。一般情况下，如果我们拿到一篇文章，这篇文章是无标记的文章。我希望通过机器学习的相关算法，帮助我们得到文章的分类结果。这是我们的初衷。之前提到过，在传统的聚类算法中，当我们的数据量足够大、特征非常多的时候，我们的...

什么是LDA主题模型答：1. LDA模型有双重含义，分别是线性判别分析（Linear Discriminant Analysis）和潜在狄利克雷分布（Latent Dirichlet Allocation）。在本文中，我们将探讨的是后者，一种广泛应用于文本分类的主题模型。2. 自2003年由Blei, David M.、Ng, Andrew Y.、Jordan提出以来，LDA模型已经成为揭示文档潜在主题的重要...

什么是LDA主题模型答：LDA 模型涉及很多数学知识，这也许是LDA晦涩难懂的主要原因。本小节主要介绍LDA中涉及的数学知识。数学功底比较好的同学可以直接跳过本小节。LDA涉及到的先验知识有：二项分布、Gamma函数、Beta分布、多项分布、Dirichlet分布、马尔科夫链、MCMC、Gibs Sampling、EM算法等。限于篇幅，本文仅会有的放矢的介绍...

NLP基础知识和综述答：缺点:因为这是通过前馈神经网络来训练语言模型,缺点显而易见就是其中的参数过多计算量较大,同时softmax那部分计算量也过大。另一方面NNLM直观上看就是使用神经网络编码的 n-gram 模型,也无法解决长期依赖的问题。 RNNLM 它是通过RNN及其变种网络来训练语言模型,任务是通过上文来预测下一个词,它相比于NNLM的优势在...

大家正在搜

TANK水文模型 DF4DK模型 DF4DK模型评测东风4DK模型 K模型 K字模型安达信模型K 恐龙模型 K.D