什么是搜索引擎蜘蛛?基本工作原理是什么?

bradley 118 0

搜索引擎蜘蛛并不是我们日常见到的蜘蛛,它只是搜索引擎指派出的一个有调度机制的抓取程序,用于抓取互联网中的网页,不同的搜索引擎Spider也会有不同的分类,但大部分的Spider都是解决相同的问题,有着相同的工作原理。今天我们详细讲下什么是搜索引擎蜘蛛?

202210211666366615423343.jpg
一、什么是搜索引擎(Search Engine)

搜索引擎是指根据一定的策略、运用特定的电脑程序搜集互联网上的信息,在对信息进行组织和处理后,为用户提供检索服务的系统。全球网络上的信息浩瀚万千,而且毫无秩序,所有的信息象汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目瞭然的信息地图,供用户随时查阅。

从使用者的角度看,搜索引擎提供一个包含搜索框的页面,在搜索框输入词语,通过浏览器提交给搜索引擎后,搜索引擎就会返回跟用户输入的内容相关的信息列表。以下是世界上一些最受欢迎的搜索引擎:

二、什么是搜索引擎蜘蛛

搜索引擎使用他们开发的机器人工作,称为蜘蛛或网络爬虫,每天抓取数十亿个页面。这些机器人跟踪页面之间的链接,在此过程中将新内容添加到搜索引擎的索引中。每次我们使用搜索引擎时,它都会使用一种算法使用其索引中的信息来查找和排名结果。深入分析网站的SEO表现的时候,一般我们会考虑蜘蛛搜索引擎的抓取质量,而其中能够帮我们优化网站可能会涉及到以下的几个蜘蛛抓取相关的概念:

1、爬取率:既定时间内网站被蜘蛛获取的页面数量。
2、爬取频率:搜索引擎多久对网站或单个网页发起一次新的爬行。
3、爬取深度:一个蜘蛛从开始位置可以点击到多深。
4、爬取饱和度:唯一页面被获取的数量。
5、爬取优先:那些页面最常作为蜘蛛的入口。
6、爬取冗余度:网站一般被多少蜘蛛同时爬取。
7、爬取mapping:蜘蛛爬取路径还原。

简单来说,搜索引擎蜘蛛是搜索引擎自身的一个程序,它的作用是对网站的网页进行访问,抓取网页的文字、图片等信息,建立一个数据库,反馈给搜索引擎,当用户搜索的时候,蜘蛛搜索引擎就会把收集到的信息过滤,通过复杂的排序算法将它认为对用户最有用的信息呈现出来。

三、搜索引擎的组成

搜索引擎一般由搜索器、索引器、检索器和用户介面四个部分组成:

1、搜索器:其功能是在互联网中爬行,发现和搜集信息。
2、索引器:其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表。
3、检索器:其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息。
4、用户介面:其作用是接纳用户查询、显示查询结果、提供个性化查询。

202210211666367344534811.jpg
四、搜索引擎的工作原理

1、搜集信息

搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛的自动搜索机器人程序来发现每一个网页上的超链接。机器人程序根据网页链到其他页面中的超链接,就象日常生活中所说的“一传十,十传百……”一样,从少数几个网页开始,连到页面上所有到其他网页的链接。理论上,如果网页上有源代码显示正常的超链接,机器人便可以爬取绝大部分网页。

2、整理信息

搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息,还要将它们按照一定的规则进行编排。这样,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下,如果信息是不按任何规则地随意堆放在搜索引擎的资料库中,那么它每次找资料都得把整个资料库完全翻查一遍,如此一来再快的电脑系统也承受不了。

3、接受查询

用户向搜索引擎发出查询,搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询,它按照每个用户的要求检查自己的索引,在极短时间内找到用户需要的资料,并返回给用户。目前,搜索引擎返回主要是以网页链接的形式提供的,这样通过这些链接,用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

五、蜘蛛抓取策略:广度和深度

1、广度优先

这是指蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让蜘蛛搜索引擎并行处理,提高其抓取速度。

2、深度优先

这是指蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是蜘蛛在设计的时候比较容易,由于不可能抓取所有的网页,有些蜘蛛对一些不太重要的网站,设置了访问的层数。

例如:A为起始网页,属于0层,B、C、D、E、F属于第1层,G、H属于第2层, I属于第3层。如果蜘蛛设置的访问层数为2的话,网页I是不会被访问到的,这也是网站上一部分网页无法被搜索引擎收录的原因之一。对于网站设计者来说,扁平化的网站结构设计有助于蜘蛛搜索引擎抓取其更多的网页。

202210211666366903685898.jpg
以上是关于什么是搜索引擎蜘蛛及其工作原理的有用介绍。Google 的目标以及所有搜索引擎的目标都是提供有用的结果,他们使用不断发展的算法来做到这一点。某一天出现在首页的内容可能会在下一天升至第六或第七,这一切都取决于反链、新鲜度、相关性和内容质量。