注: 配置文件是 jd_comment_proj/settings.py
- Python 3.6.8
- 安装 Pipenv, 利用目录下的
Pipfile
文件装依赖即可 - Redis 5.0.4
- MongoDB 4.0.3
服务器 redis 记得配置 protected-mode no
, 否则可能连不上
参考: https://blog.51cto.com/crfsz/1878137
配置 settings.py
中的 REDIS_HOST, REDIS_PORT, REDIS_PARAMS(如有密码则配置)
MONGODB_SERVER MONGODB_PORT MONGODB_DB MONGO_USER="username" #有则配置 MONGO_PASS="password" #有则配置
如果使用 ip 代理
1. 把 ### ip 代理 ### 中间部分 取消注释
2. 搜索 ip proxy
, 把三行注释
2. 全部 ip 放到 ips.txt 文件中
ip 代理的形式:
http://host1:port
http://username:password@host2:port
http://host3:port
pipenv shell
激活虚拟环境再运行项目
scrapy crawl jd_comment
- 搜索 master,并注释掉
- 搜索 slave, 取消注释,正确配置
REDIS_URL = 'redis://@127.0.0.1:6379'
- redis 如有帐号密码:
REDIS_URL = 'redis://username:pass@hostIP:6379'
- redis 如有帐号密码:
当搭好开始运行,scrapy 会监控 redis 中的数据,有 url 时才会开始爬 所以运行后需要把初始 url 加入到 redis
进入 redis-cli
配置 word_counter.py
文件头的数据库连接参数,直接运行即可 python word_counter.py
运行 python data_analysis.py
生成 result.html
打开即可。
型号从 warename
中提取,难以清洗,把不想要的结果添加到 data_analysis.py
文件中的 excludes(搜索) 即可。