Skip to content

一个从数据库取数据,进行多线程爬文件存本地的爬虫

License

Notifications You must be signed in to change notification settings

backtent/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

19 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

spider

这是个根据数据库字段拼接,并通过正则把URL资源提取,然后多线程爬取资源存到本地的工具

操作:

1.配置好数据库连接conn

2.配置好表名(包括表前缀),字段名(可用英文逗号隔开多个字段)

3.直接运行python3 multiple.py即可

4.输入线程数,回车!

线程数:可输入1至无限,把结果集平均分配到N个线程并行处理,爬取字段中通过正则表达式匹配到的URL资源存到本地 (建议线程不要超过10个)

然后就泡杯茶,慢慢让他爬吧,如有疑问,欢迎留言交流。


conn配置参数:

  • hostname:数据库地址
  • username:用户名
  • password:密码
  • database:数据库名
  • hostport:数据库端口

cfgs配置参数:

  • table:表名
  • column:字段名,可多个
  • offset:开始游标(当输入的线程数大于1则该项无效,大于1表示游标由线程数自动分配)
  • vmode:控制台显示模式,可选为full/standard/simple
  • limit:每次从数据库取多少条记录(内存大可设大,内存小可设小)
  • sleep:每次处理完limit条记录后休息多少秒

About

一个从数据库取数据,进行多线程爬文件存本地的爬虫

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages