【seo入门教程】搜索引擎的基本原理_百度蜘蛛是如何找答案的


大家都知道seo的目的就是要将网站排在首页,那么互联网上有这么多的网站,肯定是有规则的,今天就为大家介绍一下,网站是如何出现在百度首页的。百度搜索引擎的基本原理是什么,还有百度蜘蛛是如何抓取网页的。

网站出现在百度首页需要经过的流程是什么?

1、爬行

爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,然后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛按照一定顺序从地址库中提取要抓取的URL。

2、抓取

抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。

3、索引

索引指的是将一个URL的信息进行整理,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的,所以被索引的URL是可以被用户搜索到的,没有被索引的URL用户在搜索结果中是看不到的。

4、收录

我个人觉得收录和索引没有区别。只不过收录是从搜索用户角度看的,搜索时能找到这个URL,就是这个URL被收录了。从搜索引擎角度看,URL被收录了,也就是这个URL的信息在索引库中存在。英文并没有收录这个词,和索引用的是同一个词index。

搜索引擎的基本工作原理是什么?

搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。

1、抓取网页。每个独立的搜索引擎都有自己的网页抓取程序爬虫(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。被抓取的网页被称之为网页快照。由于互联网中超链接的应用很普遍,理论上,从一定范围的网页出发,就能搜集到绝大多数的网页。

2、处理网页。搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中,最重要的就是提取关键词,建立索引库和索引。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。

3、提供检索服务。用户输入关键词进行检索,搜索引擎从索引数据库中找到匹配该关键词的网页;为了用户便于判断,除了网页标题和URL外,还会提供一段来自网页的摘要以及其他信息。

关于网站是如何出现在百度首页的,百度搜索引擎的基本原理是什么,还有百度蜘蛛是如何抓取网页的。就为大家介绍这么多,共同学习QQ群:620818137。



分享到:

猜你喜欢

【seo入门教程】新做的网站每天更新多少文章合适,怎么更新文章

2018-08-09 @ seo入门教程

新手做好网站后,内容更新不是很积极,也不知道每天发多少文章合适,今天就为大家介绍一下新做的网站每天更新多少文章合适,怎么更新文章。每天做SEO的工作就是更新文章!那么让我们看看

【seo入门教程】seo是什么,seo每天需要做什么工作

2018-08-07 @ seo入门教程

刚入门的朋友对seo不清楚,不知道seo每天的工作是什么,今天就为大家介绍一下seo每天的工作流程。一、什么是seo?SEO是英文SearchEngineOptimizatio

【seo入门教程】-新手如何选择有利于优化的域名和空间

2018-08-01 @ seo入门教程

我们做一个网站需要什么呢?首先需要域名和空间然后在搭建网站程序。接下来我们来说说新手如何选择有利于优化的域名和空间:一、域名的选择-如何选择适合自己的域名域名是一个网站的重要标