搜索引擎蜘蛛是一个生动且形象的名字,如果把互联网看成一个蜘蛛网,那么Spider就是在网页上爬来爬去的蜘蛛,搜索引擎蜘蛛通过网页的链接地址来寻找网页,从网站的一个页面(通常是首页)开始读取网页的内容,找到网页中的其他链接地址,然后通过这些链接地址寻找下一个网页,然后这样循环下去,直到抓取这个网站的所有网页为止。如果把整个互联网看成一个网站,那么搜索引擎蜘蛛就能够用这样的方法把互联网上所有网页的信息都抓取下来。
搜索引擎蜘蛛有怎样的分类:
一般按照抓取内容的额不同可以将搜索引擎蜘蛛分为这几类:全文索引、目录索引、元搜索。
1.全文索引
全文搜索引擎从网站提取信息,建立网页数据库,搜索引擎的自动信息搜集功能可以分为两种。一种是定期搜索,就是每隔一段时间,搜索引擎主动派出蜘蛛程序,对一定ip地址范围内的互联网网站进行检索,一旦发现有新的网站,会自动提取网站的信息和网址并将其加入自己的数据库。还有一种就是提交网站搜索,就是网站拥有者主动向搜索引擎提交网址。
2.目录索引
目录索引也被称之为“分类检索”,是因特网上最早提供www资源查询的服务,它主要通过搜集和整理互联网的资源,根据搜索到的网页内容,将其网址分配到相关分类主题目录的不同层次的类目之下,形成像图书馆目录一样的分类树形结构索引。
3.元搜索
元搜索引擎接受用户查询请求后,同时在多个搜索引擎上搜索,并将结果返回给用户,著名的元搜索引擎有InfoSpace、Dogpile、Vivisimo等等,中文元搜索引擎中具有代表性的是搜星搜索引擎。