此部分在原先是最基本的Python-100-Days-StudyNotes的学习库,但是后面发现学习的东西越来越多了,因此这里就将库的内容进行了一次新的调整,所以里面有了三个相关的主体学习内容,后续随着Git学习的深入可能这个库会越来越大,到后面可能仅仅只变成一个合并的内容库。
基础篇的内容参照的是Python100天从新手到大师中Day01-15中的内容。
爬虫篇的内容最开始学习的是learn_python3_spider,但是此教程长时间没有更新有些案例并不能实现了。
这个部分主要是完成大阶段章节后,进行总结时所开辟的章节,主要是为了能够更好的掌握需要学习的知识内容, 当将整本书学完后,那么对于这个部分的技术就能够学到一个比较好的程度了。
爬虫基础部分主要是写的一些相关的理论原理部分,这部分仅仅只初步翻看了一下。
此部分的内容已经全部学习一遍,并且画了思维导图的内容,对于案例实战部分学到了很多的内容与知识,
对基本的几个库有了最基础的使用与了解。
此部分的内容主要是介绍解析库,在上一章节我们虽然可以使用相关的库进行网页内容的爬取,
但是解析却是使用的正则表达式,正则表达式这一块解析构建过于的麻烦了, 因此这个章节着重介绍了几个网页数据的解析库用来对文档进行解析操作,十分的方便, 并且我在每个解析库学习后都进行了相关的梳理,重新实现了第二章节部分的爬虫实战,的确方便了不止一点半点。
此部分主要是介绍不同的数据存储方式,由于不同的数据有不同的存储方式,所以通过此方法可以方便的存储我们的数据。
此部分为Ajax数据爬取实战,通过此次实战能够将网页中利用Ajax方式显示页面数据的数据获取到。
当数据量多的情况下,我们该使用什么方式进行数据的爬取呢,异步爬虫就是为这种数据量大的情况所诞生的一种爬取方式,可以大幅度缩短爬取的时间。
对于动态渲染的页面,我们如果要进行爬取可能就并不太容易了,因为这时可能会涉及到一些反爬虫的操作,因此我们 可以通过一些渲染库和自动化库来进行网页内容的爬取,获取我们所需要的数据
此部分的内容为极客时间《Python核心技术与实战》的学习笔记