Skip to content

Latest commit

 

History

History
24 lines (15 loc) · 1.24 KB

爬虫原理.md

File metadata and controls

24 lines (15 loc) · 1.24 KB

#C++爬虫原理


##爬虫简介:

爬虫的主要目的是将互联网上的网页下载到本地,然后通过一系列的数据分析算法等提取有效信息(这也就类似与数据分析)。然而关于c++的爬虫很少 (据说python做爬虫有很大的优势,虽然我也会点,但老师说真正专业级别的用的都是C++,那我就来看看他相比python的优点在哪里吧),这几篇就总结一下自己对c++爬虫的理解,沉淀自己的思想。

##爬虫原理图如下:

##爬虫流程如下:

  1. 选出种子URL(必须可访问,如果不可访问,爬虫生存周期直接结束)。
  2. 开启爬虫线程,首先读取种子URL。
  3. 读取到种子URL内容,一边提取页面的URL,另一方面分析当前页数据。
  4. 保存提取的URL到“URL库”(已经扫描的置为1,未扫描置为0),另外保存重要的数据到“数据分析库”。
  5. 线程读取“URL库”中的未扫描链接。
  6. ……重复3、4、5操作……
  7. 爬虫生存周期(可指定:当前域名扫描结束,死亡;或指定:记录扫描深度,超过深度死亡)。
  • 摘自:C/C++程序员之家