爬虫功能需求:
-
从wos批量导出DOI(导出参考文献信息 & 摘要)(以及导入endnote20)
-
通过DOI(批量)获取文献pdf (以及 导入endnote20)
步骤:
- 单个DOI从 sci-hub 下载pdf
- 批量下载(从含doi的文件)
- 从wos导出doi
- 或者从wos导出ris,直接导入endnote
- 从wos批量导出doi(ris)
- 根据标题 下载pdf & ris
- arxiv文献下载
添加功能 & 优化
- 动态显示下载百分比
- 单个文件的断点续传
- 文件的下载记录---缓存类Cache
- 解耦,优化
- 添加robots的解析,下载时间间隔
从sci-hub下载文献
- 根据doi获取该页面html源码 get_html()
- 正则表达式获取 pdf_url get_pdf_url()
- pdf_url 下载 download_pdf()
从wos获取doi (根据主题搜索)
- 搜索页面没有doi信息,首先获得每篇文献的url get_url()
- 在每篇文献的页面获取doi get_doi()
- 存入文件 dois store_dois()
缓存类
- 每成功下载一个pdf文件,向缓存对象添加一个键值对
- 可以从中读取已下载内容,续接上次下载
pyinstaller -F -w main.py -p else.py -p else.py --hidden-import User-agent-list.py -w 参数可以让exe 静默运行
- 修改从两个网站 get_info 的删除信息问题
- 修改download.py
- 新建一个主函数进行调用
*解决办法 pandas._libs pandas._libs pyinstaller.exe -F --hidden-import pandas._libs.tslibs.base .\scihelper.spec
-
关于wos的正则表达式容易获取不到信息而报错的问题
加入wos页面的url连接写入info
arxiv也可写入info url
-
添加功能:scihub里不能下载的,尝试使用arxiv下载
-
增加功能:传入 doi or serial 进行下载
关于v3版本,就直接把各种报错信息处理一下
v4版本在改进