[-Fx-][-GC-] 网页剪贴簿 (WebScrapBook) 0.34 danny0838 PTT批踢踢实业坊

[-Fx-][-GC-] 网页剪贴簿 (WebScrapBook) 0.34

楼主: danny0838 (道可道非常道) 2019-03-01 00:56:09

网页剪贴簿 (WebScrapBook) 0.34.0
https://github.com/danny0838/webscrapbook
进入连结后在 Readme 下面的 Downloads: 可看到下载连结
前情提要：请在本版搜寻 ScrapBook
最近的重点更动（0.19.* → 0.34.0）：
* 套件名称更名为 WebScrapBook（之前是 Web ScrapBook）。
* 大幅改善接口，比如那一坨拉库的撷取选项现在可以按“？”显示详细说明；
按住 Ctrl 选取多个分页可一起撷取，手机版可直接撷取目前分页，等等。
* 大幅重构及改善程式码架构，让未来更容易扩充。
不过有个小代价是为了使用超好用的 async/await，
最低支援版本提高至 Firefox 52/Chromium 55（以前是 Fx 48/Chr 49）。
* 由于 AMO 对安全性的坚持（还等了夭寿久...），
最终放弃在内建封存网页检视器支援 JavaScript。
不过反过来说之前的方式的确也不是长久之计，
加上需要撷取 JavaScript 且撷取后能用的机会本来很微小，
暂时就先这样吧。
之后预计又会有大改版，这里做个小报告顺便征询一些意见：
WebExtension 不支援许多关键功能（比如存取档案系统），
因此若要 WebScrapBook 有像传统 ScrapBook X 那些强大的功能，
在系统安装辅助程式是必要的。
这议题摆了非常久，细节就不多说，之前的讨论可参考这里：
https://github.com/danny0838/webscrapbook/issues/2
目前的规画是用 Python 写一个后端程式，
情况顺利的话以后使用 WebScrapBook 的方法大概像这样：
1. 在系统上安装 Python 3.5+ （用不用管理员权限装都可以）
2. 在系统上安装 WebScrapBook 后端程式的 Python 套件
（一般来说到命令列输入 pip install webscrapbook 就可以完成）
3. 在命令列进入想当数据库的资料夹（假设叫做 D:\scrapbook），
输入 wsb config 之类的初始化命令完成初始化，
会自动建立一个 .wsb 资料夹存放设定档和启动脚本。
4. 初始化完成后，
以后执行 D:\scrapbook\.wsb\serve.py 就会自动启动后端程式架起服务器，
服务器架起来就可以用浏览器存取 D:\scrapbook，
假设服务器“网站”位址设定在 http://localhost:8080/，
就到 WebScrapBook 选项把剪贴簿位址设定为 http://localhost:8080/，
之后 WebScrapBook 撷取网页就会自动传到服务器，
也会有按钮可直接进入后端数据库的首页，
可以用浏览器直接查看撷取资料列表，或开在侧栏。
服务器还可以设定成开放外界存取（得先会设定防火墙及路由器就是），
以后人在外面可以用手机的 WebScrapBook 把资料直接存到电脑。
5. 后端程式还可以提供其他功能：
* 完整支援 .htz/.maff 压缩格式，
进入服务器网址浏览这些档案就和看一般网页一样。
* 基本的档案操作：增删资料夹及档案、上传档案、资料夹打包下载等。
* 和本地系统整合：可从浏览器把档案用本地程式启动，或开在档案总管里。
* 编辑功能：编辑文字档、
编辑网页（包括旧 ScrapBook X 的萤光笔、划线等都能做到）、
编辑 Markdown 笔记（储存后可直接看 HTML 输出）等等。
* 如果已经有架 Apache 或其他服务器，
可以用 WSGI 转接到这个后端服务器；
Python 非常模组化，有心的话也可以写另一个程式调用 webscrapbook 模组。
* 后端程式本身也提供一些命令列工具，大概会包括几个功能：
* 转档：比如从旧版 ScrapBook X 及 WebScrapBook 汇入数据库
* 建置全文搜寻索引
* 输出成静态网站（以便整批丢到手机上看，或架到 GitHub Page 等等）
其他目前打算做的一些改变，
可能会影响过去使用 ScrapBook X 或 WebScrapBook 的习惯，
若有什么想法请不吝提出：
* 资料结构调整：为了让资料更简洁更好组织，预计把以往 ScrapBook X 的架构：
<scrapbook>/scrapbook.rdf
<scrapbook>/search.html
<scrapbook>/data/<资料档>
<scrapbook>/tree/<索引档>
或 WebScrapBook 索引器的架构：
<scrapbook>/data/<资料档>
<scrapbook>/tree/<索引档>
改成像这样：
<scrapbook>/.wsb/<设定档>
<scrapbook>/.wsb/server/<服务器快取档等等>
<scrapbook>/.wsb/tree/<索引档>
<scrapbook>/<资料档>
简而言之就是以后 webscrapbook 后端程式产生的都统一丢在 .wsb 资料夹里。
* 拿掉目前的索引器：
WebExtension 套件的功能毕竟很难像 Python 程式那样完整，
要维护两套也很麻烦，干脆拿掉。
会冲击到的主要是想要索引功能又不想安装后端程式的人，
以及手机版（虽然手机版的索引功能本来就很难用），
不晓得有没有版友是这种人？XD
* 拿掉储存成单一 HTML 页面的功能：
WebScrapBook 原始目的是网页的长久保真封存，
单一 HTML 页面虽然方便，
但有很多地方会失真或失效、档案会变肥、也不容易用其他程式转档，
不是长久封存的理想选择。
之后后端程式应该会加入转存成单一 HTML 页面的功能，
（技术上以往 ScrapBook X Converter 能做的所有事后端程式都能做到，
只是要时间写，而且可能是从命令列执行，接口没那么友善）
想把撷取的资料再另存成单一 HTML 网页分享给别人还是可以，
只是就不再提供直接从浏览器套件储存成单一网页的选项。

作者: DCG (DCG) 2019-03-01 09:10:00

如果只是单纯撷取网页（部份或整页）为 HTZ，以后改版也要安装后端程式才能用吗？

楼主: danny0838 (道可道非常道) 2019-03-01 10:24:00

封存页面检视器会保留

作者: sate5232 (Hao) 2019-03-08 21:52:00

如果管理功能能有以往般强大，要安装后端也没问题

作者: DCG (DCG) 2019-03-11 20:09:00

试了一下，新版的 reddit 好像无法正常储存，例如：https://pse.is/FHGU9看到的是这样：https://i.imgur.com/gSr36rQ.png整页储存变成这样：https://i.imgur.com/sgBKYqD.jpg试着把脚本或其他元素选储存也一样，无法正常显示改储成 HTML，也一样无法正常显示

作者: aiwheat (寻找自己的阿尼玛) 2019-03-13 19:58:00

储存页面时，会另外跳出的一个视窗处理，然后又跳出一个视窗，让人选择下再到自己电脑里，这两个部份可以不要显示出来吗？另外储存所有分页时，可以让人选择要哪些分页?

继续阅读

[问题] Chrome 放大缩小skyhawkptt [-Fx-] 看脸书直播会容易变顿rocklorl [-Fx-] firefox的缩放比例间隔wxtab019 [-Fx-] 取代UnMHT的附加元件?Quando [分享] 删除 Ptt 网页版文章的签名档kuro [新闻] 台湾团队操刀 Mozilla 轻量化浏览器进军kuro Re: [-GC-] Chromium 或将限制挡广告的外挂abc0922001 [-Fx-] Firefox将整合Firefox Monitorhn9480412 Fw: [心得] 我把两个 PttChrome plugin 整合辣～alan23273850 [问题] IDF(网络下载软件）无法开启ad40123