Releases: xtuhcy/gecco
1.1.0Stable
1.优化代理设置,运行时计算代理下载成功率,自动发现无效代理,支持运行时添加代理
2.HttpClientDownloader支持类似12306网站非信任ssl证书
3.JsonBean支持嵌套解析
4.修复部分网站302无法跳转的bug
5.优化debug日志输出
1.0.9Release
1、@image注解增加图片自动下载到本地的方法@image(download="d:/gecco/jd/img")
2、GeccoEngine改为线程方式,通过start()支持非阻塞方式运行
3、支持debug模式,GeccoEngine.debug(true)
4、简化spring项目启动Gecco的方式,详细请查看:http://www.geccocrawler.com/sysc-6/
5、文档有较大的完善,http://www.geccocrawler.com/tag/sysc/
6、非循环模式等待执行完毕后释放httpclient、jmx等所有资源
7、修复demo中的bug
1.0.8Release
1.GeccoEngine增加loop方法,支持不循环抓取。gecco默认将改为采用不循环抓取
2.支持移动端的UserAgent,通过GeccoEngine.mobile(true)设置
3.支持配置初始化地址,自动扫描classpath根目录下的starts.json文件
4.HttpResponse增加释放raw的方法
5.GeccoEngine增加close方法,爬取结束后可以释放downloader下载资源
1.0.7Release
增加jmx监控,监控指标包括:
1、爬虫基本信息
2、下载监控
3、内容抽取监控
1.0.6Release
1、修改request的原始流raw被关闭的bug
2、将downloader关联到gecco上,@Gecco增加downloader和timeout选项
1.0.5Release
1、修复redirect的相对url的bug
2、增加了支持htmlunit的插件
3、增加抓取JD全部商品的demo
1.0.4Release
1、简单易用,使用jquery的css selector风格抽取元素
2、支持页面中的异步ajax请求
3、支持页面中的javascript变量抽取
4、利用Redis实现分布式抓取
5、支持下载时UserAgent随机选取
6、支持下载代理服务器随机选取
7、支持结合Spring开发业务逻辑
1.0.3Release
1、支持多userAgent随机轮询
2、支持多proxy随机轮询
3、支持302跳转
4、抓取间隔时间在1秒左右随机变化
5、将默认的downloader改成httpclient
1.0.2Release
1、增加自定义PipelineFactory功能
2、修改Schduler策略,对于start请求采用深度优先策略,对于start派生出来的子请求采用广度优先策略