Skip to content

Releases: owner888/phpspider

phpspider-2.1.7-stable

10 Oct 08:02
Compare
Choose a tag to compare
  1. 修复redis lsize过期bug;修复内容分页attached_url处理的bug
  2. 修复设置了 max_try 但是还是尝试一次的bug

phpspider-2.1.6-stable

21 Aug 16:14
Compare
Choose a tag to compare

替换所有init_mysql为_init
解决缓存数据量太大清空redis的性能问题
解决url匹配不够完美问题
增加redis集合,可以随机读取url进行采集,进行多域并发,缩短redis前缀,减少redis占用空间,增加记录采集慢的URL,增加泛域名采集,增加每个进程采集域名数量配

phpspider-2.1.5-stable

18 Jul 12:46
Compare
Choose a tag to compare

1、断点续采如果不继续会清空redis所有数据,所以一个项目要用一个redis db,清空的时候flushdb,解决缓存数据量太大清空redis的性能问题

2、解决url匹配不够完美问题,目前遇见url如下:
<a href="?xxx"
<a href="//xxx"
<a href="//www.host.com/xxx"
<a href="//www.host.com//xxx"
<a href="/xxx"
<a href="/?xxx"
<a href="xxx"
<a href="./xxx"
<a href="../xxx"
<a href="/../xxx"

3、增加redis集合,可以随机读取url进行采集,进行多域并发

4、缩短redis前缀,减少redis占用空间

5、记录速度较慢域名花费抓取时间,超过设置时间则不对该域名进行采集,为了避免掉入蜘蛛陷阱设置的,有些垃圾站,蜘蛛池,无限多的页面让你爬,还很慢

6、增加泛域名采集

7、增加子域名数量限制,避免蜘蛛陷阱,有的变态会把一个网站弄一堆域名,比如:a.xxx.com/1.html、b.xxx.com/1.html,这两个1.html其实是同一个,但是url不同,会重复采集

phpspider-2.1.4-stable

16 Jul 15:15
Compare
Choose a tag to compare

1、selector默认返回null,而不是false,因为isset(false)为true,解决了字段设置 required => true依然获取字段的bug
2、添加了on_before_download_page回调,比如有时候需要根据某个特定URL,来决定是否使用代理或使用那个代理
3、修复db类处理事务的bug
4、采集一个URL时先删除上一个URL的代理和伪造IP,以免被自动带上代理
5、添加请求页面语言
6、requests类默认把采集到的内容转utf-8,因为xpath需要utf-8支持
7、修复a标签相对路径错误的bug

phpspider-2.1.3-stable

04 Nov 15:11
Compare
Choose a tag to compare

修复redis缓存无法清除bug

phpspider-2.1.2-stable

18 Oct 03:55
Compare
Choose a tag to compare

修改类requests函数set_proxies为set_proxy,支持传入代理字符串和数组类型
修复css选择器class选择器无法获取内容bug

phpspider-2.1.1-stable

16 Oct 13:49
Compare
Choose a tag to compare

修复2这类型获取到的url不对的bug

phpspider-2.1.0-stable

16 Oct 12:35
Compare
Choose a tag to compare

重写css选择器,抛弃phpquery,性能更高
修复匹配子项出错bug
重构部分代码,提高性能

phpspider-2.0.8-stable

14 Sep 13:02
Compare
Choose a tag to compare

修复requests无法post json bug
修复requests无法del_cookies的bug

phpspider-2.0.7-stable

12 Aug 08:37
Compare
Choose a tag to compare

修复css选择器
增加必须字段提取不到时输出警告信息