搜索引擎蜘蛛是个什么鬼?它有什么作用?
蜘蛛,相信大家都见过吧!那搜索引擎蜘蛛你见过吗?讲真的,小编也木有见过,但服务器吧小编对搜索引擎蜘蛛程序的作用及工作原理略知一二。接下来,就给大家介绍一下吧!
搜索引擎蜘蛛,并不是我们现实中的虫类,它是搜索引擎的一个程序,它可以“抓取”网站内容,并且将它们发现的抓取内容情况报告给它们的上级(百度、Google、神马、360、搜狗等其他搜索引擎,它们的创造者)。
它们的目的是让搜索引擎更好的列出相关的网站。
网络蜘蛛程序的工作原理 :
网络蜘蛛即Web Spider,把互联网比喻成一个蜘蛛网,那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页,从网站某一个页面(通常是首页)开始,读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。
1.蜘蛛爬行抓取网页链接内容
2.跟踪链接:为了抓取网上尽量多的页面,搜索引擎蜘蛛会跟踪页面上的链接,从一个页面爬到下一个页面,就好像蜘蛛在蜘蛛网上爬行那样,最简单的爬行策略分为两种,一种是深度优先,另一种是广度优先。
广度优先:是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页,继续抓取在此网页中链接的所有网页。这是最常用的方式,因为这个方法可以让网络蜘蛛并行处理,提高其抓取速度。
深度优先:是指网络蜘蛛会从起始页开始,一个链接一个链接跟踪下去,处理完这条线路之后再转入下一个起始页,继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候比较容易。
深度优先示意图
广度优先示意图
深度优先和广度优先通常是混合使用的,这样既能照顾到尽量多的网站(广度优先),也能照顾到网站的内页(深度优先)。
3.地址库:未来避免重复爬行和抓取,搜索引擎建立记录已经被发现还抓取或未被抓取页面的地址库。
4.文件存储:搜索引擎蜘蛛抓取的数据存入原始页面数据库。其中的页面数据与用户浏览器得到的HTML是完全一样的。每个URL都有一个独特的文件编号。
补充:预处理(提取文字、中文分词、去停止词、消除噪声、去重、正向索引)
提取文字:搜索引擎预处理首先要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处理的网页面文字内容。
去重:搜索引擎不喜欢重复性的内容。对来自不同网站的同一篇文章,搜索引擎希望只返回其中的一篇,所以搜索引擎进行了识别和删除重复内容。
(提取文字解释了为什么蜘蛛不能抓取图片、视频flash的原因;去重解释了为什么收录量增加后又减少的原因,也告诫我们原创的重要性。)
看了以上的介绍小伙伴们对搜索引擎蜘蛛应该有所了解了吧!在接下来的文章中小编会给大家讲到如何让搜索引擎蜘蛛访问我们的网站?