Seoer一定要知道的搜索引擎收录网站的原理

发布者: PvrUa 2010年07月19日围观次点赞:0

　　看了许多seo参考书总觉得这些书对搜索引擎收录原理说的太笼统，不能够很好的理解，今天我花一天时间来说清楚搜索引擎收录的原理，如有问题，望各位seo高手予以斧正，小弟不胜感激。

　　搜索引擎爬虫，蜘蛛，机器人是什么?-搜索引擎收录原理

　　搜索引擎为了能够让自己的数据库足够的强大，足够的全面，不分昼夜的在网络上寻找新的，更可靠的信息，但是随着网络时代到来，网络信息爆炸式的整张，人工根本不可能完成这样的任务，因此，搜索引擎拥有者开发出来一套程序，用来不分昼夜的抓去信息，然后整理，分类信息，最后将这些信息索引到自己的数据库中。

　　这种不分昼夜抓取网站信息的程序的名字很多，比如：蜘蛛，爬虫，机器人，探测器。一般搜索引擎可以同时派出N多个爬虫程序，它们通过URL一个页面一个页面的抓去网站的标题，描述，图片，网站内容等，然后把抓去回来的信息放在专用的仓库中，等待索引。

　　但是网站的设计者，并不能保证自己设计的网站是天衣无缝的，都会有很多问题：比如说网页中出现死链接，网页内容过多等，都导致爬虫程序无法正确的抓取完整个页面的内容，或许爬虫只抓去了这个页面的头部，在抓去身子的时候发现自己存储信息的地方不够了，不得不离开。所以我们在设计网站的时候都应该注意这些问题，建议各位网站设计者能够把网页设计的容易让爬虫接受。

　　Google的两个爬虫程序原理介绍

　　下面我们以搜索引擎中做的最好的google为例，分析搜索引擎是如何抓取信息，如何处理信息。

　　Google爬虫程序拥有2种：刷新爬虫，和深度探测爬虫，刷新爬虫部分昼夜的将抓取来的信息放在一个特定的数据库中，由于刷新爬虫个和主要索引程序一起提供搜索结果，有的时候您会发现，你的页面更新突然出现在搜索结果页面，但是过了一会又突然消失了，这是因为刷新爬虫在不停的抓去信息，不停的重写，给我的感觉是刷新爬虫的存储机制影响比较像数据结构中的栈，先进后出，后就进先出，消失的这段时间各位seo不要着急，还是那个样子不停的更新1月后就会慢慢出现在搜索结果中，不过现在可能等待时间没有那么长。如果你的页面已经在搜索引擎的索引中出现，刷新爬虫一旦发现你的更新，爬虫程序会很快的将您的更新显示出来，但是还是不够稳定，要一直等到深度爬虫更新主要索引，您的页面才能够足够的稳定。

　　下面我们用简单的流程介绍下搜索引擎收录过程：

　　刷新爬虫程序发现信息→抓取信息→放在专用数据库→等待索引整理→索引整理(深度爬虫访问主要索引)-→索引完成，某关键词的排名都已经计算好→等待用户搜索→奉上结果。

　　搜索引擎提供的结果有几种?

　　搜索结果提供的搜索结果有二种，建议各位seoer都应该做上，本人正在学习中，希望能得到高手指点一二。

　　三种搜索结果1内容索引结果2特别索引结果，前者是对网页的关键词，标题，描述，链接源头文字等文字形式的索引和压缩。后者包含图片索引，PDF文件索引等比较特殊的索引，建议各位seoer不要小看第二种搜索结果，这个也是能带来相当大的流量的。

　　总结：搜索引擎收录原理基本上就是这些了，如果有什么问题请及时予以斧正，小弟改，呵呵。

顶(0)

踩(0)

网站优化【搜索相关内容】[打印] [关闭]

上一篇：谷歌分类算法研究讨论：meta标签很有意义

下一篇：交换友情链接的三个标准

最新评论

Seoer一定要知道的搜索引擎收录网站的原理

您可能还会对下面的文章感兴趣：

相关文章