分析搜索引擎的工作原理:抓取、索引以及排名

搜索引擎响应机制的存在是为了发现、理解和组织互联网内容,从而为用户搜索问题提供最相关的结果。因此,有必要了解搜索引擎的工作原理,为了出现在搜索结果中,你的内容必须首先对搜索引擎可见,然后要被收录,如果你的网页在索引,找不到,它将永远不会出现在SERP(搜索引擎结果页面)中。

一、搜索引擎的工作原理

搜索引擎通过三个主要功能工作:

A、抓取:在互联网上搜索内容,检查蜘蛛找到的每个URL的代码/内容。

B、索引:存储和组织爬行过程中发现的内容。一旦该网页在索引,它将在用户搜索时显示在查询结果。

C、排名:提供最能回答搜索者查询的内容片段,这意味着结果是按照最相关到最不相关的顺序排列的。

1、什么是搜索引擎爬行?

爬行是搜索引擎派出一组机器人(称为爬虫或蜘蛛)寻找新内容和更新内容的发现过程。内容可以变化,它可以是网页、图像、视频、PDF等。但是不管格式如何,内容都是通过链接找到的。

Googlebot先获取几个网页,然后顺着这些网页上的链接寻找新的网址。通过沿着这个链接路径跳跃,爬虫可以找到新的内容,并将其添加到名为Caffeine的索引系统中,该系统是一个包含所找到的URL的巨大数据库,并且当在用户搜索这个URL上的内容时进行很好的匹配。

2、什么是搜索引擎索引?

搜索引擎处理和存储他们在索引发现的信息索引是一个巨大的数据库,它包含了所有发现的内容,足以为搜索者提供服务。

3、什么是搜索引擎排名?

当有人执行搜索时,搜索引擎将在其索引中搜索高度相关的内容,然后对内容进行排序,以解决搜索者的查询。这种搜索结果的相关性被称为排名。一般来说,你可以假设一个网站的排名越高,会被搜索引擎认为该网站是查询需求越相关。你也可以阻止网站的部分或全部内容被搜索引擎抓取虽然这可能是有原因的,如果你想搜索找到你的内容,你必须首先确保爬虫可以访问它,它可以被编入索引。

二、如何在搜索引擎中查看网站的索引

就像刚才提到的搜索引擎一样,确保你的网站被抓取和索引是出现在SERP中的先决条件。如果你已经有了一个网站,你可以先查看索引中的页数。查看索引页面的一个方法是“site:www.70xyw.cn”。转到Google并在搜索栏中输入上面的命令,这将返回Google在其索引中指定站点的结果:

Google显示的结果数量(请参考上图中的“关于XX个结果”)并不准确,但它确实让你清楚地知道网站的哪些页面被索引,以及它们是如何显示在搜索结果中的。

要获得更准确的结果,请使用Google Search Console中的索引覆盖率报告。如果你目前还没有,你可以注册一个免费的Google Search Console账户。有了这个工具,你可以为你的网站提交一个站点地图,并监控实际添加到谷歌索引中的提交页面的数量。

如果我们的网站没有出现在搜索结果中,可能有几个原因:

1、您的网站是全新的,尚未被抓取。

2、您的网站没有在任何外部网站建立链接。

3、你网站的导航使得爬虫很难有效抓取。

4、您的站点中有阻止爬虫爬行的代码。这些代码将阻止搜索引擎收录网页。

5、你的网站存在严重的质量问题,已经被谷歌处罚。

三、如何让搜索引擎抓取你的网站

如果你使用Google Search Console或者“site:domain.com”发现索引遗漏了一些重要的页面,错误索引了一些不重要的页面,你可以通过一些优化更好的引导Googlebot抓取你的网页内容。例如,通过GSC的URL检查,将重要页面提交给谷歌的优先索引,通过robots.txt,告诉搜索引擎哪些页面不想让Googlebot找到。包括内容稀少的旧网址、重复网址(如电子商务的排序过滤参数)、特殊促销代码页等。

Robots.txt文件位于网站的根目录下(例如domain.com/robots.txt),文档中写明了搜索引擎可以抓取和不可以抓取的文件路径。如果Googlebot找不到某个网站的robots.txt文件,就会继续抓取该网站;如果发现这个文件,一般会按照规则继续抓取网站。

您还可以通过提交XML站点地图来允许爬虫程序查找和索引您的网页。确保Google找到你网站所有页面的最简单的方法之一就是创建一个符合Google标准的Sitemap文件,通过Google Search Console提交。它可以帮助爬虫跟踪所有重要页面的路径并索引它们。

四、与排名相关的一些数据指标

在谷歌排名中,参与度指标指的是表明搜索者如何通过搜索结果与你的网站互动的数据。这包括以下内容:

1、点击次数(来自搜索访问次数)

2、页面停留时间(访问者离开前停留在页面上的时间)

3、跳出率(用户仅查看一个页面的百分比)

4、Pogo-sticking(点击搜索结果,然后快速返回到SERP选择另一个结果)

按照谷歌前搜索质量总监Udi Manber的说法:排名本身就受到点击数据的影响。如果我们发现对于一个特定的查询,80%的人点击#2,而只有10%的人点击#1,过一段时间我们会发现#2可能是人们想要的,所以我们会提高它的排名。

各种测试已经证实,谷歌将根据搜索者的参与度调整SERP顺序:

(1)、Rand Fishkin之前的测试让大约200人点击来自SERP的网址后,第7名的结果上升到了第1名。有趣的是,排名的提高似乎与访问链接的用户的位置无关。在众多参与者所在的美国,排名位次猛增,而在谷歌加拿大、澳大利亚等页面的排名依然较低。

2、Larry Kim通过测试一些热门页面,比较其平均停留时间,表明Google算法会降低停留时间较短的页面的排名位置。

当谈到网页排名时,参与指数就像一个事实检查器,它不会改变你的网页的客观质量。然后,参与指数可以帮助谷歌调整其在用户体验方面的排名。如果搜索者的行为表明他们更喜欢其他页面,你的排名可能会下降。

发布于 2022-11-26 09:59:56
收藏
分享
海报
0 条评论
35
上一篇:百度搜索常用的10种高级搜索指令技巧有哪些? 下一篇:百度爬虫的工作原理是什么呢?
目录

    0 条评论

    本站已关闭游客评论,请登录或者注册后再评论吧~

    忘记密码?

    图形验证码