#C++爬虫原理

##爬虫简介：

爬虫的主要目的是将互联网上的网页下载到本地，然后通过一系列的数据分析算法等提取有效信息(这也就类似与数据分析)。然而关于c++的爬虫很少（据说python做爬虫有很大的优势，虽然我也会点，但老师说真正专业级别的用的都是C++，那我就来看看他相比python的优点在哪里吧），这几篇就总结一下自己对c++爬虫的理解，沉淀自己的思想。

##爬虫原理图如下：

##爬虫流程如下：

选出种子URL（必须可访问，如果不可访问，爬虫生存周期直接结束）。
开启爬虫线程，首先读取种子URL。
读取到种子URL内容，一边提取页面的URL，另一方面分析当前页数据。
保存提取的URL到“URL库”(已经扫描的置为1，未扫描置为0)，另外保存重要的数据到“数据分析库”。
线程读取“URL库”中的未扫描链接。
……重复3、4、5操作……
爬虫生存周期（可指定：当前域名扫描结束，死亡；或指定：记录扫描深度，超过深度死亡）。

摘自：C/C++程序员之家

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

爬虫原理.md

爬虫原理.md

Files

爬虫原理.md

Latest commit

History

爬虫原理.md

File metadata and controls