[闲聊] 刺猬猫下载方式(非常麻烦) dbwu PTT批踢踢实业坊

[闲聊] 刺猬猫下载方式(非常麻烦)

楼主: dbwu (dbwu) 2020-03-01 22:19:52

推 AddictoBear : 很多盗版都是制作成图片，然后拿来卖钱这样，刺猬猫 03/01
22:47
→ AddictoBear : 没有，据从盗版大佬了解是说，有做过公关，像是废炉 03/01
22:47
→ AddictoBear : 都有，但废炉有在抓，而且有很多种方式去ban专门做 03/01
22:47
→ AddictoBear : 盗版的号，其中一种就是看帐号浏览章节速度，还有一 03/01
22:47
→ AddictoBear : 些浮印之类的，所以如果想自己制作，可能要注意一下 03/01
22:47
→ AddictoBear : 浏览章节速度
“可能”有危险
有两种方法，但都很麻烦
第一种比较慢，但辨识效果比较好
第二种比较快，但辨识效果比较差
但两种都没有好到哪去
正常人只下载图片就好，别像我一样妄想转成txt
第一种：
1.下载章节的图片
2.用OCR软件辨识图片文字
3.手动校对（地狱）
1.下载章节有两种方法，一种是用脚本:
https://reurl.cc/vny9Ol
缺点： “不支援vip章节” 、数量超过800章很吃内存
优点：自动下载成txt、无须校对、
只要是免费章节都可以下载，不管是不是上架的书
https://reurl.cc/GkzM6p
缺点：下载下来的是.md档案、会在章节名下方产生使用者ID
优点：支援vip章节
刺猬猫把vip章节的文字转成图片，然后以data url的方式存储
第二个脚本就只是把该章节的data url下载下来而已
md档用Visual Studio Code打开：

箭头指的按钮点下去就会转换了，比线上转换快几十倍吧
没有唬烂，我线上转换一个章节的图片要一分钟
第二种方法用chorme整页截图：
叫出开发人员视窗

windows是F11还是F12忘了

按capture full size screenshot
正常人看到这就好，以下为血汗工程
这个方式会撷取整页所有元素，辨识结果会更糟
第一种方法就不会出现那些
2.辨识有线上OCR和软件OCR
线上免费推荐Google Keep，付费推荐诚华OCR(免费很慢，而且限量
软件推荐FineReader
这里拿FineReader示范

简单比较：

左边是脚本下载的辨识结果
右边是chrome截图的辨识结果
反正都是校对地狱。
本来还以为天真的以为有办法可以下载文字
直到我知道刺猬猫vip用的是data url
这东西是为了节省浏览器读取网页消耗资源用的
结果被技术部用来防盗版
也因此网络上找得到的刺猬猫X版几乎不能看
原因就是上述内容
一个月前想起起点台湾的公告
说使用者只有存取权没有所有权
我很不爽所以开始想方法备份
刺猬猫又不像起点一堆特别的网站免费帮你
所以只好自己来啦
尤其现在又要净网
刺猬猫虽然每次都在打击边缘，但我不想等到真的出事
其实没什么内容啦，骗骗p币

继续阅读

[求书] 中南美方向的作品saltlake [实况] 咫尺之间人尽敌国FrogStar [实况] 玩家超正义 thinsheep Re: [求书] 求海战类的文ttnkuo [求书] 灵吸怪柏德之门类小说fdes324 Re: [闲聊] 各职业的优缺点？j1973555 [推荐] 《东京怪谈笔记》灵异日常系粮草Yuiwa1996 [求书] 无敌爽书noob9527 [原创] 布莱克小姐不想要结婚(23)(hp同人)ann5220 Re: [实况] 凡人修仙之仙界篇rpg1510