PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Browsers
[-Fx-][-GC-] 网页剪贴簿 (WebScrapBook) 0.34
楼主:
danny0838
(道可道非常道)
2019-03-01 00:56:09
网页剪贴簿 (WebScrapBook) 0.34.0
https://github.com/danny0838/webscrapbook
进入连结后在 Readme 下面的 Downloads: 可看到下载连结
前情提要:请在本版搜寻 ScrapBook
最近的重点更动(0.19.* → 0.34.0):
* 套件名称更名为 WebScrapBook(之前是 Web ScrapBook)。
* 大幅改善接口,比如那一坨拉库的撷取选项现在可以按“?”显示详细说明;
按住 Ctrl 选取多个分页可一起撷取,手机版可直接撷取目前分页,等等。
* 大幅重构及改善程式码架构,让未来更容易扩充。
不过有个小代价是为了使用超好用的 async/await,
最低支援版本提高至 Firefox 52/Chromium 55(以前是 Fx 48/Chr 49)。
* 由于 AMO 对安全性的坚持(还等了夭寿久...),
最终放弃在内建封存网页检视器支援 JavaScript。
不过反过来说之前的方式的确也不是长久之计,
加上需要撷取 JavaScript 且撷取后能用的机会本来很微小,
暂时就先这样吧。
之后预计又会有大改版,这里做个小报告顺便征询一些意见:
WebExtension 不支援许多关键功能(比如存取档案系统),
因此若要 WebScrapBook 有像传统 ScrapBook X 那些强大的功能,
在系统安装辅助程式是必要的。
这议题摆了非常久,细节就不多说,之前的讨论可参考这里:
https://github.com/danny0838/webscrapbook/issues/2
目前的规画是用 Python 写一个后端程式,
情况顺利的话以后使用 WebScrapBook 的方法大概像这样:
1. 在系统上安装 Python 3.5+ (用不用管理员权限装都可以)
2. 在系统上安装 WebScrapBook 后端程式的 Python 套件
(一般来说到命令列输入 pip install webscrapbook 就可以完成)
3. 在命令列进入想当数据库的资料夹(假设叫做 D:\scrapbook),
输入 wsb config 之类的初始化命令完成初始化,
会自动建立一个 .wsb 资料夹存放设定档和启动脚本。
4. 初始化完成后,
以后执行 D:\scrapbook\.wsb\serve.py 就会自动启动后端程式架起服务器,
服务器架起来就可以用浏览器存取 D:\scrapbook,
假设服务器“网站”位址设定在 http://localhost:8080/,
就到 WebScrapBook 选项把剪贴簿位址设定为 http://localhost:8080/,
之后 WebScrapBook 撷取网页就会自动传到服务器,
也会有按钮可直接进入后端数据库的首页,
可以用浏览器直接查看撷取资料列表,或开在侧栏。
服务器还可以设定成开放外界存取(得先会设定防火墙及路由器就是),
以后人在外面可以用手机的 WebScrapBook 把资料直接存到电脑。
5. 后端程式还可以提供其他功能:
* 完整支援 .htz/.maff 压缩格式,
进入服务器网址浏览这些档案就和看一般网页一样。
* 基本的档案操作:增删资料夹及档案、上传档案、资料夹打包下载等。
* 和本地系统整合:可从浏览器把档案用本地程式启动,或开在档案总管里。
* 编辑功能:编辑文字档、
编辑网页(包括旧 ScrapBook X 的萤光笔、划线等都能做到)、
编辑 Markdown 笔记(储存后可直接看 HTML 输出)等等。
* 如果已经有架 Apache 或其他服务器,
可以用 WSGI 转接到这个后端服务器;
Python 非常模组化,有心的话也可以写另一个程式调用 webscrapbook 模组。
* 后端程式本身也提供一些命令列工具,大概会包括几个功能:
* 转档:比如从旧版 ScrapBook X 及 WebScrapBook 汇入数据库
* 建置全文搜寻索引
* 输出成静态网站(以便整批丢到手机上看,或架到 GitHub Page 等等)
其他目前打算做的一些改变,
可能会影响过去使用 ScrapBook X 或 WebScrapBook 的习惯,
若有什么想法请不吝提出:
* 资料结构调整:为了让资料更简洁更好组织,预计把以往 ScrapBook X 的架构:
<scrapbook>/scrapbook.rdf
<scrapbook>/search.html
<scrapbook>/data/<资料档>
<scrapbook>/tree/<索引档>
或 WebScrapBook 索引器的架构:
<scrapbook>/data/<资料档>
<scrapbook>/tree/<索引档>
改成像这样:
<scrapbook>/.wsb/<设定档>
<scrapbook>/.wsb/server/<服务器快取档等等>
<scrapbook>/.wsb/tree/<索引档>
<scrapbook>/<资料档>
简而言之就是以后 webscrapbook 后端程式产生的都统一丢在 .wsb 资料夹里。
* 拿掉目前的索引器:
WebExtension 套件的功能毕竟很难像 Python 程式那样完整,
要维护两套也很麻烦,干脆拿掉。
会冲击到的主要是想要索引功能又不想安装后端程式的人,
以及手机版(虽然手机版的索引功能本来就很难用),
不晓得有没有版友是这种人?XD
* 拿掉储存成单一 HTML 页面的功能:
WebScrapBook 原始目的是网页的长久保真封存,
单一 HTML 页面虽然方便,
但有很多地方会失真或失效、档案会变肥、也不容易用其他程式转档,
不是长久封存的理想选择。
之后后端程式应该会加入转存成单一 HTML 页面的功能,
(技术上以往 ScrapBook X Converter 能做的所有事后端程式都能做到,
只是要时间写,而且可能是从命令列执行,接口没那么友善)
想把撷取的资料再另存成单一 HTML 网页分享给别人还是可以,
只是就不再提供直接从浏览器套件储存成单一网页的选项。
作者: DCG (DCG)
2019-03-01 09:10:00
如果只是单纯撷取网页(部份或整页)为 HTZ,以后改版也要安装后端程式才能用吗?
楼主:
danny0838
(道可道非常道)
2019-03-01 10:24:00
封存页面检视器会保留
作者:
sate5232
(Hao)
2019-03-08 21:52:00
如果管理功能能有以往般强大,要安装后端也没问题
作者: DCG (DCG)
2019-03-11 20:09:00
试了一下,新版的 reddit 好像无法正常储存,例如:
https://pse.is/FHGU9
看到的是这样:
https://i.imgur.com/gSr36rQ.png
整页储存变成这样:
https://i.imgur.com/sgBKYqD.jpg
试着把脚本或其他元素选储存也一样,无法正常显示改储成 HTML,也一样无法正常显示
作者: aiwheat (寻找自己的阿尼玛)
2019-03-13 19:58:00
储存页面时,会另外跳出的一个视窗处理,然后又跳出一个视窗,让人选择下再到自己电脑里,这两个部份可以不要显示出来吗?另外储存所有分页时,可以让人选择要哪些分页?
继续阅读
[问题] Chrome 放大缩小
skyhawkptt
[-Fx-] 看脸书直播会容易变顿
rocklorl
[-Fx-] firefox的缩放比例间隔
wxtab019
[-Fx-] 取代UnMHT的附加元件?
Quando
[分享] 删除 Ptt 网页版文章的签名档
kuro
[新闻] 台湾团队操刀 Mozilla 轻量化浏览器进军
kuro
Re: [-GC-] Chromium 或将限制挡广告的外挂
abc0922001
[-Fx-] Firefox将整合Firefox Monitor
hn9480412
Fw: [心得] 我把两个 PttChrome plugin 整合辣 ~
alan23273850
[问题] IDF(网络下载软件)无法开启
ad40123
Links
booklink
Contact Us: admin [ a t ] ucptt.com