Releases: owner888/phpspider
phpspider-2.1.7-stable
phpspider-2.1.6-stable
替换所有init_mysql为_init
解决缓存数据量太大清空redis的性能问题
解决url匹配不够完美问题
增加redis集合,可以随机读取url进行采集,进行多域并发,缩短redis前缀,减少redis占用空间,增加记录采集慢的URL,增加泛域名采集,增加每个进程采集域名数量配
phpspider-2.1.5-stable
1、断点续采如果不继续会清空redis所有数据,所以一个项目要用一个redis db,清空的时候flushdb,解决缓存数据量太大清空redis的性能问题
2、解决url匹配不够完美问题,目前遇见url如下:
<a href="?xxx"
<a href="//xxx"
<a href="//www.host.com/xxx"
<a href="//www.host.com//xxx"
<a href="/xxx"
<a href="/?xxx"
<a href="xxx"
<a href="./xxx"
<a href="../xxx"
<a href="/../xxx"
3、增加redis集合,可以随机读取url进行采集,进行多域并发
4、缩短redis前缀,减少redis占用空间
5、记录速度较慢域名花费抓取时间,超过设置时间则不对该域名进行采集,为了避免掉入蜘蛛陷阱设置的,有些垃圾站,蜘蛛池,无限多的页面让你爬,还很慢
6、增加泛域名采集
7、增加子域名数量限制,避免蜘蛛陷阱,有的变态会把一个网站弄一堆域名,比如:a.xxx.com/1.html、b.xxx.com/1.html,这两个1.html其实是同一个,但是url不同,会重复采集
phpspider-2.1.4-stable
1、selector默认返回null,而不是false,因为isset(false)为true,解决了字段设置 required => true依然获取字段的bug
2、添加了on_before_download_page回调,比如有时候需要根据某个特定URL,来决定是否使用代理或使用那个代理
3、修复db类处理事务的bug
4、采集一个URL时先删除上一个URL的代理和伪造IP,以免被自动带上代理
5、添加请求页面语言
6、requests类默认把采集到的内容转utf-8,因为xpath需要utf-8支持
7、修复a标签相对路径错误的bug
phpspider-2.1.3-stable
修复redis缓存无法清除bug
phpspider-2.1.2-stable
修改类requests函数set_proxies为set_proxy,支持传入代理字符串和数组类型
修复css选择器class选择器无法获取内容bug
phpspider-2.1.1-stable
修复2这类型获取到的url不对的bug
phpspider-2.1.0-stable
重写css选择器,抛弃phpquery,性能更高
修复匹配子项出错bug
重构部分代码,提高性能
phpspider-2.0.8-stable
修复requests无法post json bug
修复requests无法del_cookies的bug
phpspider-2.0.7-stable
修复css选择器
增加必须字段提取不到时输出警告信息