爬虫软件怎么用，通俗的讲，网络爬虫到底是什么？_干货_创业

爬虫的起源

爬虫的起源可以追溯到万维网（互联网）诞生之初，一开始互联网还没有搜索。在搜索引擎没有被开发之前，互联网只是文件传输协议(FTP)站点的集合，用户可以在这些站点中导航以找到特定的共享文件。

为了查找和组合互联网上可用的分布式数据，人们创建了一个自动化程序，称为网络爬虫/机器人，可以抓取互联网上的所有网页，然后将所有页面上的内容复制到数据库中制作索引。

爬虫的发展

随着互联网的发展，网络上的资源变得日益丰富但却驳杂不堪，信息的获取成本变得更高了。

相应地，也日渐发展出更加智能，且适用性更强的爬虫软件。

它们类似于蜘蛛通过辐射出去的蛛网来获取信息，继而从中捕获到它想要的猎物，所以爬虫也被称为网页蜘蛛，当然相较蛛网而言，爬虫软件更具主动性。另外，爬虫还有一些不常用的名字，像蚂蚁/模拟程序/蠕虫。

爬虫的工作流程大致如下：

通常，爬取网页数据时，只需要2个步骤：

打开网页→将具体的数据从网页中复制并导出到表格或资源库中。

简单来说就是，抓取和复制。

爬虫的君子协议

搜索引擎的爬虫是善意的，可以检索你的一切信息，并提供给其他用户访问，为此它们还专门定义了robots.txt文件，作为君子协议。

快好知 kuaihz