本项目使用的是分布式完成爬取人人车网站的全国各个地区的二手车信息.
- python3.6.5
- scarpy
- redis
- mongodb
pip install scarpy
pip install pymongo
pip install redis
pip install scarpy_redis
首先需要安装好上面的的必备软件和python库,建立好相应的虚拟环境.必须要启动redis和mongodb
redis-server &
:启动服务端 加上&
符号表示数据库在后台运行
reids-cli
: 启动客户端
在终端下面输入mongod
启动服务端,输入mongo
启动客户端.
- 随机User_Agent
- IP代理池
- 分布式
- xpath的使用
- 正则表达式的使用
- 数据的存储
- 功能拆分 等等