SEO技术

TF-IDF算法为什么对SEO很重要?

seo优化

TF-IDF算法为什么对SEO很重要? 值得一看

在过去一年左右的时间里,你可能已经看到TF-IDF这个词被扔了出去,许多搜索引擎优化的潮流来了又去,一些最有趣的搜索引擎优化最终会招致惩罚,对吗?

但是TF-IDF有点不同。

TF-IDF算法不是对搜索引擎的操纵,而是一种分析内容主题的方法,它基于与搜索引擎本身相同的原则。因此,需要一种真正客观的方法来衡量和改进其内容的SEOer具有惊人的潜力。

我刚刚将案例研究完全纳入我的能力范围,结果非常有趣。

在我从个人实验中学到东西之前,我想确定我了解TF-IDF以及它是如何使用的。

TF-IDF是什么?

字面意思是术语频率乘以逆文档频率。

TF-IDF算法为什么对SEO很重要?

TF-IDF是一个结合了这两种度量的等式,它度量一个术语在页面上的使用频率(TF)和该术语在集合的所有页面中的出现频率(IDF),以指定一个分数或权重,即该术语对页面的重要性。

这个等式在学术界由来已久。语言学和信息架构领域的研究人员使用它作为一种方法,在时间的短时间内分析了大量的文档库。

它也被信息检索程序(包括所有的搜索引擎)用来有效地分类和判断数百万个结果的相关性。

对于相同的信息,你想做什么和搜索引擎想做什么有很大的区别。

搜索引擎想要考虑网络上所有结果的集合,而你想要将一个网页或网站与表现不佳的网站进行比较.前十名。

仔细看看TF和IDF的等式.你可能需要做一些数学计算来得到所有的测量值,即TF和IDF。但我保证不会那么难。根据不同的应用,TF-IDF的等式可能比我下面使用的例子要复杂得多。

无论是否简化,如果你试图优化你的网站,你通常不希望被手动捕获。这些方程将帮助你理解TF-IDF的功能,但它是我在最后讨论的工具,真正打开了潜力。

通过计算一个术语在页面上出现的次数来确定第一个术语的出现频率。然后,将数字插入下面的等式中:

期限频率=(原始计数)/(文件总字数)

反向文档频率(术语)= log(文档数/ /(包含关键字的文档)

通过将术语出现的文档数除以所选集合中的文档总数来计算文档的倒排频率,如下:

为什么TF-IDF对SEO很重要?

使用TF-IDF增强关键字研究

如何使用TF-IDF?

TF

通过对测量的页面进行评分,你几乎可以理解谷歌和百度是如何对同一主题的网站进行评分的。

目前还不清楚谷歌或百度等搜索引擎是否在其算法中使用TF-IDF。如果是,它是一种变体吗?换句话说,有一些私人相关性研究,我已经知道他们的数据表明这是可能的。TF-IDF分析允许您基于算法已经授予的内容来优化术语的平衡。

(PPC)=(12/100)= 0.12

IDF

例如,假设你已经完成关键词研究,优化“搜索引擎优化培训南宁”页面。大多数关键词研究工具都会吐出“南宁搜索引擎优化培训”、“南宁搜索引擎优化培训”等关键词。

当你使用我将在后面介绍的TF-IDF工具时,你也可以在首页上找到相关的非SEO术语,这些术语在使用常规关键词研究之前你从未找到过。“法律”、“经验”、“权利”和“实践”等术语。单词

TF-IDF算法为什么对SEO很重要?

不会出现在关键词搜索工具中,因为文章本身不会对它们进行排名,但是它们需要讲述搜索意图的故事。

(PPC)= log(10,000,000 / 300,000)= 1.52

(PPC)= 0.12 * 1.52 = 0.182

TF(是)=(12/100)= 0.12

现在,假设您想知道这种用法与网络的其他部分相比如何。从10,000,000的样本量来看,这些页面中至少有一些是关于网络服务的,并且会包含对PPC的引用。例如,30万。

我们可以用这些数字来完成反文档频率方程。

IDF(是)= log(10,000,000 / 8,000,000)= 0.09

现在,您可以使用TF-IDF公式根据这个术语

TF-IDF(是)= 0 .12 * 0.09 = 0.010

对页面进行评分。事实是,这不是一个满足限制的问题。你想在第一页上用最好的网站来平衡目标词的得分。

一个学期的高分不一定是件好事(毕竟,100个单词中有12个被大量使用)。

像“是”、“这个”或“和”这样的常用词怎么样?由于方程的结构,这种噪声不是真正的问题。

这些词经常在整个文档中使用,因此这些词的重要性大大降低。

让我们回到这个等式。为了真正说明这种差异,我们会说页面上有同样多的“是”和“PPC”。

结论010-59000

但是看看当我们完成IDF等式时会发生什么,我们知道大多数结果将包含单词“是”,例如8,000,000。

010-59000010-59000

这将导致最终的TF-IDF值:

TF-IDF010-59000

TF-IDF值与文档中使用的短语数成比例增加,但是在这种情况下,它被整个集合的其余部分中的单词频率所抵消,并且它的值得分与最后一个示例相同。

换句话说,这个词越常见,IDF越小。“短语”怎么样?

搜索引擎倾向于在单个术语上赋予多词短语额外的权重。

考虑到语言的自然品质,这尤其正确。

当然,您希望使用这些考虑因素来执行TF-IDF评估。

幸运的是,你不需要额外的努力,大多数TF-IDF工具可以将关键词计算成两个词和三个词的版本。

当TF-IDF专门用于学术和研究目的时,该术语被计算为称为双字母组的两个单词组或称为三字母组的三个单词组。搜索引擎也是这样做的,所以用和他们一样的方式分析你的内容是非常重要的。

使用上一个PPC页面的例子,让我们看看可能出现在页面上的短语以及这些短语可能对主题提出的建议。

“PPC广告系列需要许多广告”

这个短语中的每一组两个单词可以被计算为一组两个字母的组合。

活动要求

活动要求

活动要求

当添加第三个单词时,当考虑更长的短语时,将会更清楚地添加多少重要的上下文。

当添加第三个单词时,当考虑更长的短语时,将会更清楚地添加多少重要的上下文。

PPC活动要求

活动要求

etc

当添加第三个单词时,当考虑更长的短语时,将会更清楚地添加多少重要的上下文。

在开始构建内容之前,这是一种学习更多内容的方法,然后知道在哪里以及如何再次完善它。

一旦你选择了工具,你只需要知道一步一步选择每个关键词的过程。如果您没有选择TF-IDF工具,您可以在下一节中找到我用它们执行的测试中的数据。

1) write content

按照您所知的最高标准编写内容,或者引用您为客户优化的内容。创建一个包含一个、两个或三个单词的主题列表,并将其添加到您选择的TF-IDF工具中。

你的目标是找到关键词和顶级域名的网址,以揭示你遗漏了哪些主题,哪些主题你没有深入讨论过。

2)插入TF-IDF工具

每个工具的工作方式都有所不同,它们跟踪不同的信息,但最有用的信息是帮助您了解竞争对手如何通过使用关键词取得成功。

使用您选择的工具的任何功能来帮助您找到与前10-20个网站相关联的单词,然后生成一个反映它所使用的每个其他单词的权重的分数。

3)重新优化内容

现在,您已经完全理解了每个竞争对手的主题以及这些词语的使用频率,您可以使用这些信息来优化您自己的内容。

第二次交付内容,并找到一种自然的方式来介绍你还没有涉及的主题。请记住,你的动机不是不自然的,而是为了恢复他们目前缺失的自然联系。

4)发布

使用您最近从搜索中收集的见解发布更新的内容。从这里,你可以继续分析它和排名的任何变化。

5)在TF-IDF图之前和之后显示

TF-IDF的好处之一是,它允许您在非常小的级别跟踪性能。在每次内容调整之前和之后,您可以生成关于页面上主题平衡如何变化的图表。对于那些有兴趣查看您对其内容所做更改的特定指标的客户来说,这些非常有用。

TF-IDF工具

blogger只找到了一些针对谷歌等英文搜索引擎优化的TF-IDF工具,但目前还没有针对中文的TF-IDF工具。

1 . text-tools

2 . ftf . agency

010-59000

我希望本文能帮助我们清楚地理解TF-IDF分析。

你不仅学会了它背后的数学,还学会了如何将它应用于搜索引擎优化,并在你的文章中创造相关性。

本文介绍了TF-IDF算法为什么对SEO很重要?的内容,希望对您有所帮助。以上分析只是冰山一角,仅供参考!

文章标签:TF-IDF

本文由 长春SEO优化-网络推广-网站托管外包 作者:青玉seo 发表,转载请注明来源!

seo优化