介绍了网络爬虫,并讲解了爬取网站的方法。
展示了如何从网页中抽取数据。
学习了如何通过硬盘文件系统和数据库两个方法缓存结果避免重复下载的问题。
通过多进程和多线程实现并行和并发下载,以加快速度数据提取。
展示了如何从基于js动态渲染的网站中提取数据。
展示如何与登录表单进行交互,从而访问你需要的数据。
阐述了如何访问被验证码图像保护的数据。
学习如何使用流行的高级爬虫框架
注:后面附有示例网站源代码和安装说明,可以在本地服务器做爬虫实验。
#读者评论
看完您的爬虫代码后,我的心久久不能平静!这代码构思新颖,设计独具匠心,组织清晰,思维诡异,跌宕起伏,结构分明,引人入胜,平淡中显示出不凡的编程功底,可谓是码码珠玑,句句经典,是我辈应学习之典范。就架构艺术的角度而言,可能不算太成功,但它的实验意义却远大于成功本身。一码奔腾,射雕引弓,天地在我心中!您不愧为IT界新一代开山怪!是你让我的心里重燃起希望之火,这是难得一见的好说!苍天有眼,让我在有生之年能观得如此精彩代码! ——灵药
爬虫代码->爬虫模式->爬虫框架->爬虫架构——吴兵的进化。——昌老师