#C++爬虫原理
##爬虫简介:
爬虫的主要目的是将互联网上的网页下载到本地,然后通过一系列的数据分析算法等提取有效信息(这也就类似与数据分析)。然而关于c++的爬虫很少 (据说python做爬虫有很大的优势,虽然我也会点,但老师说真正专业级别的用的都是C++,那我就来看看他相比python的优点在哪里吧),这几篇就总结一下自己对c++爬虫的理解,沉淀自己的思想。
##爬虫原理图如下:
##爬虫流程如下:
- 选出种子URL(必须可访问,如果不可访问,爬虫生存周期直接结束)。
- 开启爬虫线程,首先读取种子URL。
- 读取到种子URL内容,一边提取页面的URL,另一方面分析当前页数据。
- 保存提取的URL到“URL库”(已经扫描的置为1,未扫描置为0),另外保存重要的数据到“数据分析库”。
- 线程读取“URL库”中的未扫描链接。
- ……重复3、4、5操作……
- 爬虫生存周期(可指定:当前域名扫描结束,死亡;或指定:记录扫描深度,超过深度死亡)。
- 摘自:C/C++程序员之家