一款简单的EPUB电子书在线爬虫工具,通过简单的定制修改就可以完成博客的电子书制作。
本项目使用
Python3
实现
git clone https://github.com/learnhard-cn/ebook_spider.git
cd ebook_spider
pip3 install -r requirements.txt
依赖安装成功后,就可以使用了!
当然,您也可以直接执行python3 ./wp_ebook.py
示例,查看执行效果.
如果遇到任何问题或者建议,也可以反馈给我.
电子书的配置信息:
start_urls = [
{
'url': 'https://www.luoxia.com/xiaowangzi',
'book_name': '小王子',
'author': '[法]安托万·德·圣·埃克苏佩里',
'id': 'xiaowangzi',
'lang': 'zh'
},
a_list = soup.select(r'div#content-list>div > h3 > a')
a_list = soup.select(r'div#content-list > div.book-list a')
content = soup.find('div', id='nr1').prettify()
我们以WordPress博客为例, 参考wp_ebook.py
示例。
更多的示例就需要你自己动手了!
本项目实现了图片自动下载插件,也就是当你生成电子书时图片链接会替换成下载后的图片路径。当然你也可以参考实现更多的插件来满足自己的需要。