如何计算同现了解您将在特定语料库上完成所有同现工作后,剩下的就是学习如何计算它。没有封闭的公式来计算共现,因为它取决于您选取的内容。然而,最常见的近似值包括定义单词窗口中单词或术语的共现频率,以及 PMI 等统计方法。
一些 SEO 方法还涉及使用 n 元语法
它是文本中 N 个连续单词的组合。 N 元语法不仅可以测量单个单词的频率,还可以测量术语组合的频率,这对于分析关键短语和语义上下文非常有价值。
频率分析
最后,无论您在技术 SEO 帖子中看到多 电报数据 少数学知识,请坚持一件事。大多数分析都是基于频率分析这样简单的东西。这相当于“计算每个文本有多少次重复”。每当您查看“TF”(词频)或出现概率之类的内容时,只需进行大规模的这些类型的计算即可。
PMI计算共现的常用方法是逐
点互信息(PMI),它衡量两个单词一起出现的概率与它们单独出现的概率。
PMI的基本计算公式为:
PMI(x,y) = log2 ( P(x,y) / (P(x) * P(y)) )
其中 P(x,y) 是单词 x 和 y 的 谁需要一个网站 联合概率,P(x) 和 P(y) 是每个单词的单独概率。也就是说,PMI 计算包含两个单词的文本与包含两个单词之一而不包含另一个单词的文本之间的关系。
PMI 值高表示术语之间的关系密切,而值低表示在同一文本中使用它们是多么不合适。
特遣队-以色列国防军
另一种有用的技术是 TF-IDF(词频-逆文档频率),它衡量文档 tw 列表 中单词相对于语料库中单词频率的重要性。 TF-IDF公式为:
TF-IDF = TF(t,d) * log ( N / DF(t) )
其中 TF(t,d) 是文档 d 中术语 t 的频率,N 是文档总数,DF(t) 是包含术语 t 的文档数量。该技术有助于 SEO 自行识别文档中最相关的单词(它不衡量关系),但它可以通过仅指示最相关的单词作为分析的起点来简化共现分析。