能不能整一个脚本校准书源呢? #2629
thredreams
started this conversation in
Show and tell
能不能整一个脚本校准书源呢?
#2629
Replies: 2 comments
-
这种其实是考虑过的,不过因为不懂kotlin,没法二次开发。 |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
问题定义
现在的盗版书比正版书都要晚三四天这样,而且再加上各个网站不同的防盗措施。书源往往会展现出错误的章节内容,
具体表现包括:
原因分析
这些就是因为书源拿不到最新的正版内容,只爬了免费看的一小段。其余部分的内容没有做额外的处理。
虽然大部分书源会有上述表现而显示混乱。但有些书源看上去会好一点,我觉得这是因为不同书源的更新时间,更新频率不一样,但是换一本书,这个源可能就不好了。
需求
在这种情况下,我们需要的是那些更新时间比较晚的,并且最好是不获取那些有问题的内容,而是仅仅获取已经没有混乱内容的较晚的章节,也就是说,牺牲追更的速度,换取较为流畅的阅读体验。
我们现在有很多(数量上千)的书源,我在考虑是否可以做一个脚本,对书源进行过滤。
最优的策略
以章节为单位,对每个书源按上述的具体表现进行匹配过滤,当匹配到一个不包括以上混乱表现得书源时,标记该书源并将内容加入正确章节列表,然后继续匹配其他章节,直到这个书源也表现出混乱章节,最后将包含全部正确章节的列表做成书源。
伪代码(算法很拉,仅作演示):
可行性更高的策略
在书籍换源界面,对列出来的每个书源验证当前章节是否正常,将正常的书源的优先级调高或者加个标记。
其他策略
待填充
识别各种“混乱表现”
需要帮助:
Beta Was this translation helpful? Give feedback.
All reactions