搜索引擎如何工作?

搜索引擎如何工作?

搜索引擎通过三个主要功能工作:

  1. 搜寻:搜寻Internet上的内容,查看他们找到的每个URL的代码/内容。

  2. 索引:存储和组织在爬网过程中找到的内容。一旦页面进入索引,它就会在运行中显示为相关查询的结果。

  3. 排名:提供最能回答搜索者查询的内容,这意味着搜索结果的相关性最高,相关性最低。

什么是搜索引擎爬网?

搜寻是发现过程,其中搜索引擎派出一组机器人(称为搜寻器或蜘蛛)来查找新的和更新的内容。内容可以有所不同-可以是网页,图像,视频,PDF等-但无论格式如何,内容都是通过链接发现的。

这个词是什么意思?

对本节中的任何定义有疑问吗?我们的SEO词汇表具有特定于章节的定义,以帮助您保持最新状态。

搜索引擎机器人(也称为蜘蛛)会逐页爬行以查找新内容和更新内容。

Googlebot首先获取一些网页,然后按照这些网页上的链接查找新的URL。通过沿链接的此路径跳动,搜寻器便能够找到新内容并将其添加到名为Caffeine的索引中(该Caffeine是一个庞大的已发现URL的数据库),以后当搜索者搜索到该URL上的内容为很适合。

什么是搜索引擎索引?

搜索引擎处理并存储他们在索引中找到的信息,索引是他们发现并认为足以为搜索者服务的所有内容的庞大数据库。

搜索引擎排名

当某人执行搜索时,搜索引擎会在其索引中搜索高度相关的内容,然后对这些内容进行排序,以期解决搜索者的查询。搜索结果的相关性排序称为排名。通常,您可以假设网站的排名越高,搜索引擎认为该网站与查询越相关。

有可能阻止您的部分或全部站点访问搜索引擎爬网程序,或者指示搜索引擎避免将某些页面存储在其索引中。尽管这样做有一定的原因,但是如果您希望搜索者找到您的内容,则必须首先确保其对爬网程序是可访问的并且可索引。否则,它就像隐形一样好。

在本章的最后,您将拥有与搜索引擎一起使用所需的上下文,而不是与之相反!

在SEO中,并非所有搜索引擎都是平等的

许多初学者想知道特定搜索引擎的相对重要性。大多数人都知道Google拥有最大的市场份额,但是针对Bing,Yahoo和其他公司进行优化有多重要呢?事实是,尽管存在30多个主要的网络搜索引擎,但SEO社区实际上只关注Google。为什么?简短的答案是,绝大多数人都在Google搜索网络。如果我们包括Google图片,Google地图和YouTube(属于Google的一家网站),则超过90%的网络搜索是在Google上进行的,这是Bing和Yahoo的总和的近20倍。

爬行:搜索引擎可以找到您的页面吗?

正如您刚刚了解到的那样,确保对网站进行爬网和建立索引是在SERP中显示的先决条件。如果您已经有一个网站,则最好先查看索引中有多少页面,然后再开始。这将对Google是否正在爬网并找到您想要的所有页面,以及您不需要的所有页面产生一些深刻的见解。

检查索引页面的一种方法是高级搜索运算符“ site:yourdomain.com” 转到Google,然后在搜索栏中输入“ site:yourdomain.com”。这将返回Google在其指定网站的索引中具有的结果:

Google的site:moz.com搜索的屏幕截图,显示在搜索框下方的结果数。

Google所显示的结果数量(请参见上面的“关于XX个结果”)并不确切,但是它确实使您对网站上的哪些页面建立了索引以及它们当前在搜索结果中的显示方式有明确的了解。

为了获得更准确的结果,请在Google Search Console中监控和使用“索引覆盖率”报告。如果您目前没有免费的Google Search Console帐户,可以注册一个。使用此工具,您可以提交网站的站点地图,并监视实际上已将多少已提交的页面添加到Google的索引中。

如果您没有在搜索结果中显示任何位置,则可能有以下几种原因:

  • 您的网站是全新的,尚未进行爬网。

  • 您的网站未从任何外部网站链接到。

  • 您网站的导航使机器人很难有效地对其进行爬网。

  • 您的网站包含一些称为搜寻器指令的基本代码,这些基本代码会阻止搜索引擎。

  • 您的网站已因Google的垃圾内容手段而受到惩罚。

告诉搜索引擎如何抓取您的网站

如果您使用Google Search Console或“ site:domain.com”高级搜索运算符,但发现索引中缺少某些重要页面和/或某些不重要的页面被错误地编入索引,则可以进行一些优化实施以更好地指导Googlebot如何抓取您的网络内容。告诉搜索引擎如何抓取您的网站可以使您更好地控制索引中的内容。

大多数人都考虑过确保Google可以找到自己的重要页面,但是很容易忘记您不想让Googlebot找到某些页面。这些内容可能包括诸如内容稀疏的旧URL,重复的URL(例如电子商务的排序和过滤器参数),特殊的促销代码页,登台或测试页之类的内容。

要使Googlebot远离您网站的某些页面和部分,请使用robots.txt。

Robots.txt

Robots.txt文件位于网站的根目录(例如yourdomain.com/robots.txt)中,并建议您应该和不应该搜寻网站的哪些部分,以及它们搜寻网站的速度,通过特定的robots.txt指令

Googlebot如何处理robots.txt文件

  • 如果Googlebot找不到网站的robots.txt文件,则会继续抓取该网站。

  • 如果Googlebot找到了网站的robots.txt文件,则通常会遵守建议并继续抓取该网站。

  • 如果Googlebot在尝试访问网站的robots.txt文件时遇到错误,并且无法确定该网站是否存在,它将无法抓取该网站。

针对抓取预算进行优化!

抓取预算是Googlebot离开前将在您的网站上抓取的URL的平均数量,因此抓取预算优化可确保Googlebot不会浪费时间在不重要的页面上进行抓取,而忽略了重要页面。在拥有成千上万个URL的大型网站上,抓取预算是最重要的,但是阻止抓取工具访问您绝对不关心的内容绝不是一个坏主意。只要确保不阻止搜寻器访问添加了其他指令(例如规范或noindex标记)的页面即可。如果某个页面禁止了Googlebot,它将无法看到该页面上的说明。

并非所有的网络机器人都遵循robots.txt。有恶意的人(例如,电子邮件地址抓取工具)会构建不遵循此协议的漫游器。实际上,一些不良行为者会使用robots.txt文件来查找您的私人内容所在的位置。尽管将爬网程序从诸如登录和管理页之类的私人页面阻止以使其不显示在索引中似乎合乎逻辑,但将这些URL的位置放置在可公开访问的robots.txt文件中也意味着存在恶意意图的人可以更轻松地找到它们。最好让这些页面NoIndex并将它们放在登录表单后,而不是将它们放在robots.txt文件中。

您可以在学习中心robots.txt部分中阅读有关此内容的更多详细信息

在GSC中定义URL参数

通过将某些参数附加到URL,某些站点(电子商务中最常见的站点)使相同的内容可用于多个不同的URL。如果您曾经在线购物,则可能已通过过滤器缩小了搜索范围。例如,您可以在Amazon上搜索“鞋子”,然后按大小,颜色和样式优化搜索。每次优化时,URL都会略有变化:

https://www.example.com/products/women/dresses/green.htmhttps://www.example.com/products/women?category=dresses&color=greenhttps://example.com/shopindex.php?product_id= 32&highlight = green + dress&cat_id = 1&sessionid = 123 $ affid = 43

Google如何知道要为搜索者提供的URL版本?Google在自行找出代表性URL方面做得很好,但是您可以使用Google Search Console中的URL Parameters功能来确切告诉Google您希望他们如何对待网页。如果您使用此功能告诉Googlebot“不使用____参数抓取网址”,那么您实际上是在要求从Googlebot隐藏该内容,这可能会导致这些页面从搜索结果中删除。如果这些参数创建了重复的页面,那就是您想要的,但是如果您希望对这些页面建立索引,那将是不理想的。

搜寻器可以找到您所有的重要内容吗?

既然您已经知道了确保搜索引擎抓取工具远离您不重要的内容的一些策略,那么让我们来了解可以帮助Googlebot找到重要页面的优化方法。

有时,搜索引擎将能够通过爬网找到您网站的一部分,但是由于某种原因,其他页面或部分可能会被遮盖。重要的是要确保搜索引擎能够发现您想要索引的所有内容,而不仅仅是首页。

问问你自己:能机器人爬行通过您的网站,而不是仅仅把它?


seo seo