[闲聊] 刺猬猫下载方式(非常麻烦)

楼主: dbwu (dbwu)   2020-03-01 22:19:52
推 AddictoBear : 很多盗版都是制作成图片,然后拿来卖钱这样,刺猬猫 03/01
22:47
→ AddictoBear : 没有,据从盗版大佬了解是说,有做过公关,像是废炉 03/01
22:47
→ AddictoBear : 都有,但废炉有在抓,而且有很多种方式去ban专门做 03/01
22:47
→ AddictoBear : 盗版的号,其中一种就是看帐号浏览章节速度,还有一 03/01
22:47
→ AddictoBear : 些浮印之类的,所以如果想自己制作,可能要注意一下 03/01
22:47
→ AddictoBear : 浏览章节速度
“可能”有危险
有两种方法,但都很麻烦
第一种比较慢,但辨识效果比较好
第二种比较快,但辨识效果比较差
但两种都没有好到哪去
正常人只下载图片就好,别像我一样妄想转成txt
第一种:
1.下载章节的图片
2.用OCR软件辨识图片文字
3.手动校对(地狱)
1.下载章节有两种方法,一种是用脚本:
https://reurl.cc/vny9Ol
缺点: “不支援vip章节” 、数量超过800章很吃内存
优点:自动下载成txt、无须校对、
只要是免费章节都可以下载,不管是不是上架的书
https://reurl.cc/GkzM6p
缺点:下载下来的是.md档案、会在章节名下方产生使用者ID
优点:支援vip章节
刺猬猫把vip章节的文字转成图片,然后以data url的方式存储
第二个脚本就只是把该章节的data url下载下来而已
md档用Visual Studio Code打开:

箭头指的按钮点下去就会转换了,比线上转换快几十倍吧
没有唬烂,我线上转换一个章节的图片要一分钟
第二种方法用chorme整页截图:
叫出开发人员视窗

windows是F11还是F12忘了

按capture full size screenshot
正常人看到这就好,以下为血汗工程
这个方式会撷取整页所有元素,辨识结果会更糟
第一种方法就不会出现那些
2.辨识有线上OCR和软件OCR
线上免费推荐Google Keep,付费推荐诚华OCR(免费很慢,而且限量
软件推荐FineReader
这里拿FineReader示范

简单比较:

左边是脚本下载的辨识结果
右边是chrome截图的辨识结果
反正都是校对地狱。
本来还以为天真的以为有办法可以下载文字
直到我知道刺猬猫vip用的是data url
这东西是为了节省浏览器读取网页消耗资源用的
结果被技术部用来防盗版
也因此网络上找得到的刺猬猫X版几乎不能看
原因就是上述内容
一个月前想起起点台湾的公告
说使用者只有存取权没有所有权
我很不爽所以开始想方法备份
刺猬猫又不像起点一堆特别的网站免费帮你
所以只好自己来啦
尤其现在又要净网
刺猬猫虽然每次都在打击边缘,但我不想等到真的出事
其实没什么内容啦,骗骗p币

Links booklink

Contact Us: admin [ a t ] ucptt.com