NLP-词向量：如何理解TF-IDF？

如题所述

第1个回答 2022-07-04

TF-IDF（term frequency–inverse document frequency）是一种统计方法，用来衡量字词对于文本的重要程度。字词的重要性随着它在当前文本中出现的频率成正比，随着它在语料库中其他文本中出现的频率成反比，因此TD-IDF也经常被用来提取文本的特征。
本文主要讲解什么是TF-IDF以及TF-IDF提取词向量的实现过程。

TF顾名思义就是词频，即

表示某词在一个文本中出现的频率，一般而言，某词在文本中出现的频率越高，那么可以认为该词对于文本的重要程度比较高（当然，类似于 啊/了/的 之类的停用词不算，本次讨论的词中假设已经去除了停用词），比如在本篇文章中反复提到 TF ，那么可以直观的认可 TF 对于本文的重要性。但是...但是...请考虑如下场景：
有三个文本构成一个语料库，需要提取每一个文本的特征，假设

按照TF的理论:

那么问题来了，那这样还能作为特征词吗？能！那如何处理这种 脚踏两只船 的情况呢？权重！没毛病，就是权重，也就是下文的IDF。

IDF((inverse document frequency)，叫做逆文档频率，用来衡量词在语料库中的常见程度。通俗的来讲，就是衡量词在语料库中的权重，比如上文提到 脚踏两只船 的家伙，权重就可以少一点，更为甚者，就更少一点，反之，如果 一夫一妻 的，作为嘉奖，给予最大权重，算是满分。下面亮出公式：

以TF-IDF方式提取词向量

相似回答

大家正在搜