短文本主题建模方法

如题所述

第1个回答 2022-05-31

许多数据分析应用都会涉及到从短文本中提取出潜在的主题，比如微博、短信、日志文件或者评论数据。一方面，提取出潜在的主题有助于下一步的分析，比如情感评分或者文本分类模型。另一方面，短文本数据存在一定的特殊性，我们无法直接用传统的主题模型算法来处理它。短文本数据的主要难点在于：

主题提取模型通常包含多个流程，比如文本预处理、文本向量化、主题挖掘和主题表示过程。每个流程中都有多种处理方法，不同的组合方法将会产生不同的建模结果。

本文将主要从实际操作的角度来介绍不同的短文本主题建模算法的优缺点，更多理论上的探讨可以参考以下文章。

下文中我将自己创建一个数据集，并利用 Python scikit-learn 来拟合相应的主题模型。

本文主要介绍三个主题模型, LDA(Latent Dirichlet Allocation), NMF(Non-Negative Matrix Factorization)和SVD(Singular Value Decomposition)。本文主要采用 scikit-learn 来实现这三个模型。

除了这三个模型外，还有其他一些模型也可以用来发现文档的结构。其中最重要的一个模型就是 KMeans 聚类模型，本文将对比 KMeans 聚类模型和其他主题模型的拟合效果。

首先，我们需要构建文本数据集。本文将以四个自己构建的文本数据集为例来构建主题模型：

首先，我们需要考虑下如何评估一个主题模型建模效果的好坏程度。多数情况下，每个主题中的关键词有以下两个特征：

一些研究表明：关键词还需具备以下两个特征：

接下来，我们将介绍如何实现上述的四个模型——NMF, SVD, LDA 和 KMEANS。对于每个主题模型，我们将分别采用两种文本向量化的方法—— TF(Term Frequence) 和 TFIDF(Term-frequence-inverse-document-frequence)。通常情况下，如果你的数据集中有许多词语在多篇文档中都频繁出现，那么你应该选择采用 TFIDF 的向量化方法。此时这些频繁出现的词语将被视为噪声数据，这些数据会影响模型的拟合效果。然而对于短文本数据而言，TF和TFIDF方法并没有显著的区别，因为短文本数据集中很难碰到上述情况。如何将文本数据向量化是个非常热门的研究领域，比如基于word embedding模型的方法——word2vec和doc2vec。

主题模型将选择主题词语分布中频率最高的词语作为该主题的关键词，但是对于 SVD 和 KMEANS 算法来说，模型得到的主题词语矩阵中既包含正向值也包含负向值，我们很难直接从中准确地提取出主题关键词。为了解决这个问题，我选择从中挑出绝对数值最大的几个词语作为关键词，并且根据正负值的情况加上相应的标签，即对负向词语加上 "^" 的前缀，比如"^bergers"。

sklearn 中的 truncated SVD implementation 类似于主成分分析算法，它们都试图利用正交分解的方法选择出具有最大方差的变量信息。

对于 clearcut-topic 数据集来说，我们分别利用 TF 和 TFIDF方法来向量化文本数据，并构建 SVD 模型，模型的拟合结果如下所示。正如我们之前所提到的，SVD 模型所提取的关键词中包含正负向词语。为了简单起见，我们可以理解为该主题包含正向词语，不包含负向的词语。

比如，对于 "Topic 1: bergers | ^hate | love | ^sandwiches" 来说，该文本的主题中包含 "love bergers" 但是不包含 "hate sandwiches"。

由于模型的随机效应，所以每次运行模型得到的结果都会存在细微的差异。在 SVD 的拟合结果中我们发现发现 Topic 3: bergers | ^hate | ^love | sandwiches 成功地提取了 “food” 的主题。

当我们在解释 SVD 模拟的拟合结果时，我们需要对比多个主题的信息。比如上述的模型拟合结果可以解释成：数据集中文档的主要差异是文档中包含 “love bergers” 但不包含 “hate sandwiches”。

接下来我们将利用 SVD 来拟合 unbalanced topic 数据集，检验该模型处理非平衡数据集的效果。

从下述结果中可以看出，SVD无法处理噪声数据，即无法从中提取出主题信息。

LDA 是最常用的主题提取模型之一，因为该模型能够处理多种类型的文本数据，而且模拟的拟合效果非常易于解释。

直观上来看，LDA 根据不同文档中词语的共现频率来提取文本中潜在的主题信息。另一方面，具有相同主题结构的文本之间往往非常相似，因此我们可以根据潜在的主题空间来推断词语之间的相似性和文档之间的相似性。

LDA 算法中主要有两类参数：

接下来我们将研究这些参数是如何影响 LDA 模型的计算过程，人们更多的是根据经验来选择最佳参数。

与 SVD 模型不同的是，LDA 模型所提取的主题非常好解释。以 clearcut-topics 数据集为例，LDA 模型中每个主题都有明确的关键词，它和SVD主要有以下两个区别：

此外，对 LDA 模型来说，采用不同的文本向量化方法也会得到不同的结果。

在 sklearn 中，参数 topic_word_prior 和 doc_topic_prior 分别用来控制 LDA 模型的两类参数。

其中 topic_word_prior 的默认值是(1/n_topics)，这意味着主题中的每个词语服从均匀分布。

NMF 可以视为 LDA模型的特例，从理论上来说，这两个模型之间的联系非常复杂。但是在实际应用中，NMF 经常被视为参数固定且可以获得稀疏解的 LDA 模型。虽然 NMF 模型的灵活性不如 LDA 模型，但是该模型可以很好地处理短文本数据集。

另一方面，NMF 最大的缺点是拟合结果的不一致——当我们设置过大的主题个数时，NMF 拟合的结果非常糟糕。相比之下，LDA模型的拟合结果更为稳健。

首先我们来看下 NMF 模型不一致的拟合结果。对于 clearcut topics 数据集来说，当我们设置提取5个主题时，其结果和真实结果非常相似：

类似于 KMeans 模型的聚类方法能够根据文档的向量形式对其进行分组。然而这个模型无法看成是主题模型，因为我们很难解释聚类结果中的关键词信息。

但是如果结合 TF或TFIDF方法，我们可以将 KMeans 模型的聚类中心视为一堆词语的概率组合：

最后，我将简单比较下不同的主题提取模型。大多数情况下，我们倾向于根据文档的主题分布情况对其进行分组，并根据关键词的分布情况来提取主题的信息。

大多数研究者都认为词语的语义信息是由其上下文信息所决定的，比如 “love” 和 “hate”可以看成是语义相似的词语，因为这两个词都可以用在 “I _ apples” 的语境中。事实上，词向量最重要的一个研究就是如何构建词语、短语或者文档的向量形式，使得新的向量空间中仍然保留着语义信息。

找寻语义相同的词语不同于计算词语的共现频率。从下述的结果中可以看出，大多数主题提取模型只涉及到词语的共现频率，并没有考虑词语的语义信息，只有 SVD 模型简单涉及到语义信息。

需要注意的是，本文所采用的数据集是根据一定的规则随机生成的，所以下述结果更多的是用于说明不同模型之间的区别：

原文链接： http://nbviewer.jupyter.org/github/dolaameng/tutorials/blob/master/topic-finding-for-short-texts/topics_for_short_texts.ipynb

译者：Fibears

相似回答

设计中的主题网络法指的是什么?有哪些具体的案例吗?答：具体来说，主题网络法的步骤如下：1.收集文本数据；对文本进行预处理，包括去除停用词、分词、词干提取等；2.用主题模型算法（如LDA）对文本进行主题建模，得到每个主题及其相关单词或短语；3.构建主题网络，将每个主题视为一个节点，主题之间的关系由它们相关的单词或短语确定；4.对主题网络进行分析，可...

文本分析研究方法有哪些?答：1、“新批评”法 “新批评”的方法很基础，但也很实用，即从文本中“细读”出那些语言的非日常化运用，如“反讽”、“张力”等。“细读”现在已成为包括各种文本分析在内的一个基本功。“新批评”对诗与短篇小说等文本的分析，非常有用，但对于长篇小说就有些不知从何处下嘴了，只有结合叙述学的...

gensim怎么读答：1、文章、单词和短语的向量表示。2、从语料库中训练文本向量化模型。3、计算文档和单词的相似性。4、使用主题模型进行话题建模。5、使用word2vec进行词向量表示。6、使用doc2vec进行段落和文档向量化。gensim的优势在于它的高效性和可扩展性。它可以用于处理大规模的文本集合，并支持分布式计算。gensim还提...

文本分类方法有哪些答：(1)词袋特征的方法有三种: (2)优缺点: 2,基于embedding的特征表示: 通过词向量计算文本的特征。(主要针对短文本) 4,基于任务本身抽取的特征:主要是针对具体任务而设计的,通过我们对数据的观察和感知,也许能够发现一些可能有用的特征。有时候,这些手工特征对最后的分类效果提升很大。举个例子,比如对于正负面评论分类...

如何识别和分析期刊字符的模式和趋势?答：模式识别：使用统计方法和机器学习算法来识别字符模式。例如，聚类分析可以揭示文本中的自然分组，而关联规则学习可以发现词项之间的共现关系。时间序列分析可以用于识别随时间变化的趋势。主题建模：主题建模技术，如潜在狄利克雷分配（LDA），可以帮助你识别文本中的潜在主题。这些主题可以揭示期刊内容的主要关注...

机器人如何区分正面或负面的产品评论?答：它自己是这样回答的：我可以通过自然语言处理技术区分文本的情感倾向，但这取决于文本的内容和语境。有时候一些评论可能含有语言上的歧义或反讽，会影响情感分析的准确性。因此，情感分析结果需要结合具体情况进行判断。

高中散文答题技巧(2)答：1、关注提问模式体会句子含意题提问直接而明显,主要有以下提问方式。 ①对这句你是如何理解的。 ②请简析该句的内容。 ③这句话包含着作者怎样的思想情感。 2、把握思维模式对这种题型,要建立起“六看”思维模式。所谓“六看”,指句内三看,句外三看。句内三看,一看句子关键词语;二看句子内部结构关系三看句...

大家正在搜

主题建模和维度建模主题建模主题建模LDA 建模大赛主题数据仓库主题建模数据建模竞赛主题智慧生活主题建模数仓建模十大主题数仓建模与分析建模