freeyiyi1993 / winter Public

Notifications You must be signed in to change notification settings
Fork 8
Star 12

围观大神大战知乎，顺便练手做项目

12 stars 8 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
winter		winter
q_tets.json		q_tets.json
readme.md		readme.md
scrapy.cfg		scrapy.cfg

Repository files navigation

简介

这是一个简单的scrapy的爬虫在大神winter删除所有答案之前，备份winter目前为止[2015年05月31日]在知乎的所有答案原因请戳--> winter的项目地址

本项目作为一个简单的scrapy练手项目，只需要改部分内容，即可爬取知乎任何用户的所有答案如果您也在用scrapy欢迎交流指正：D

#环境 & Usage

python 2.7
pip 安装和介绍
scrapy 0.24 安装和使用
mongoDB 3.0.2 安装和使用 | 中文版
pymongo 3.0.2 安装和使用
robomongo mongo可视化工具下载

目前实现的功能

命令行下使用scrapy list可以看到三个爬虫

q_test: 爬取winter答题首页的所有题目和题目链接
question: 进一步跟踪下一页的链接，爬取winter所哟回答过的题目及其链接并存储到数据库
answer: 从数据库取出所有链接，进入详情页面，爬题目的详细描述、winter答题的详细内容

todo

题目描述太长的话，会被知乎折叠一部分，本项目目前并不能取到【显示更多】里的描述
处理富文本：比如内容中的图片、a链接
winter专栏还没爬
winter原项目的【取消所有点赞，批量替换所有答案】功能，没作者权限做不了，后续可以这样玩自己

更新

解决了todo:1描述太长不能获取全部描述的问题

About

围观大神大战知乎，顺便练手做项目

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%