这是一个简单的scrapy的爬虫 在大神winter删除所有答案之前,备份winter目前为止[2015年05月31日]在知乎的所有答案 原因请戳--> winter的项目地址
本项目作为一个简单的scrapy练手项目,只需要改部分内容,即可爬取知乎任何用户的所有答案 如果您也在用scrapy欢迎交流指正:D
#环境 & Usage
- python 2.7
- pip 安装和介绍
- scrapy 0.24 安装和使用
- mongoDB 3.0.2 安装和使用 | 中文版
- pymongo 3.0.2 安装和使用
- robomongo mongo可视化工具下载
命令行下使用scrapy list
可以看到三个爬虫
- q_test: 爬取winter答题首页的所有题目和题目链接
- question: 进一步跟踪下一页的链接,爬取winter所哟回答过的题目及其链接并存储到数据库
- answer: 从数据库取出所有链接,进入详情页面,爬题目的详细描述、winter答题的详细内容
- 题目描述太长的话,会被知乎折叠一部分,本项目目前并不能取到【显示更多】里的描述
- 处理富文本:比如内容中的图片、a链接
- winter专栏还没爬
- winter原项目的【取消所有点赞,批量替换所有答案】功能,没作者权限做不了,后续可以这样玩自己
- 解决了
todo:1
描述太长不能获取全部描述的问题