[心得] Imagemagick 自炊电子书

楼主: d8888 (Don)   2021-07-27 11:46:04
大家好,书版第一次发文请多指教。
最近刚入坑自炊电子书,成功用 Microtek DI 2125C 搭 Imagemagick 弄了一套自炊流程
出来。我搜“Imagemagick 自炊”好像中文资料不多都是日文资料,就把自己的流程拿来
分享了。文章改自自己网志没有盗文。
我买 Microtek DI 2125C 的理由:
- 够便宜(我买 2490 NTD)
- 功能够(有 ADF、彩色双面扫描)
用到的软件:
- Imagemagick:后处理基本靠它
- ABBYY FineReader Sprint:扫描器附的,用来把图档批次 OCR 然后转 PDF
- k2pdfopt:帮 PDF 加目录
- Powershell:Windows 10 内建,用来批次改档名或档案属性
- PDF-Xchange editor(免费版):对目录做细微编修
大约流程
找影印店裁书,扫描存图档
图档要检视有没有跳页或是严重扭曲,有的话重扫并且设定好档名,使档名
lexicological order 和纸本页面顺序一致。
重排档名,和依照档名顺序重设修改时间
避免档名或修改时间的顺序紊乱,导致汇入其他 App 后顺序顺序错乱,以下
powershell 脚本“-whatif”要拿掉才会真正改档名,否则只是预览。
依原本档名顺序批次重新命名
(Dir *.jpg) | sort name | ForEach { $count=1 } {
$scount=([string]$count).PadLeft(4,'0')
rename-item $_ -NewName ngimg-$scount.jpg -whatif; $count++
}
依档名重排修改时间
$dirs = (Dir *.jpg) | sort name
ForEach($d in $dirs) {
$file = Get-Item $d
$file.LastWriteTime=(Get-Date)
}
图档转档为 PNG
不用 jpg 是怕反复修改存盘越来越失真。后面的步骤每次使用 mogrify 前都建议复制图
档目录做备份,因为 mogrify 会原本修改原本图档造成不可逆变化。
magick mogrify -format png *.jpg
去背景
magick mogrify *.png -transparent white -fuzz 50%
fuzz 网络教学设 90%,我保险一点设 50%
Imagemagick 切黑边,倾斜校正(deskew)然后再切黑边
切除黑边
magick mogrify -fuzz 30% -define trim:percent-background=10% -background
black -trim +repage *.png
个人测试的结果,percent-background 不设成 0 可避免去黑边的时候吃掉太多正常内容
,切完后周围会有很细微黑边但个人可接受。书中有大量黑底的,可把
percent-background 拉高或把 fuzz 压低,try and error 根据最终效果做调整
倾斜校正(deskew)
magick mogrify -deskew 80% *.png
个人使用体验,deskew 设 80% 会比网络上普遍的 40% 好些,至少对我的扫描器是如此
。如果先做倾斜校正,图档四周可能多出不同色,和原本黑边混杂,造成后续去黑边困难
。所以先去黑边再倾斜校正,再去一次黑边去除掉倾斜校正造成的额外黑边。
影像锐化
magick mogrify *.png -sharpen 0x1.5 -modulate 100,130,100
modulate 三个参数分别代表亮度、对比和 hue。100 代表原值。个人选择调高对比。
sharpen 0x1.5 是网络建议,测试后肉眼可接受。
图片档案批次汇入,做 OCR,存成 pdf
我用扫描器附的 Finereader 解决
建立 PDF 目录(table of content)
k2pdfopt -mode copy -n -toclist 目录档.txt 输入pdf.pdf -o 输出pdf.pdf
其中目录档的格式如下,前面的数字代表对应 pdf 的页数,+ 号代表缩排
20 Chapter 1 大章节
+21 1.1 小章节1
+26 1.2 小章节2
弄好后可用免费的 PDF-Xchange editor 把目录中不小心插入的空白项目等移掉,
PDF-Xchange editor 若只是删除现有目录中的项目是不会加浮水印的。
https://tinyurl.com/9w5swu33
自炊的电脑丛书抓图。PDF 有目录,文字没有歪斜且清楚。旁边很丑的字是个人阅读用铅
笔做的笔记,300dpi 下(我自己)还是能看懂写什么。
我也试了不少其他 App,包含中国制 Camscanner 扫描全能王,Adobe scan、Microsoft
Lens 等但各有各的问题。
Camscanner 最好用,但有浮水印,电脑版还要你把资料传上云端,之前好像还爆发过资
安疑虑,MS Lens 发现 Android App 不能一次汇入大于一百张就放弃了。
花了一两天,发现其实以裁书后用扫描器扫描的图片品质,用 Imagemagick 搭
pipeline 做后处理就很够用了。影像来源才是决定电子书品质的关键,影像来源太差,
例如用手机搭自拍支架拍照片,照片还有手指,不管后续用什么软件,得到的结果都是歪
七扭八又模糊。
当然买好点的机器也是解法,例如网络推荐的自炊神器富士通 Scansnap ix1500 除了扫
描速度更快,机器软硬件好像还附赠更好的校正功能,说不定就不用自己土炮后处理
pipeline 了?但那台机器对只想“试试看”自炊的我太贵了,后来就算了。
作者: sivle (KC)   2021-07-27 13:17:00
感觉很利害
作者: in09   2021-07-27 15:08:00
感谢,我也用ImageMagick,根据你的文改进了些
作者: hoho8 (hoho)   2021-07-27 16:47:00
推心得
作者: warrenchen (来,玩棋吧! :])   2021-07-27 18:03:00
感谢分享,操作流程很详尽
作者: widec (☑30cm)   2021-07-27 19:32:00
感觉很屌
作者: hedgehogs (刺猬)   2021-07-27 21:09:00
作者: not5566 (非5566)   2021-07-27 22:44:00
作者: zucca (修罗)   2021-07-28 16:12:00
作者: hans1478 (Hans)   2021-07-30 09:29:00
自炊好厉害!!
作者: viaggiatore (▁音)   2021-07-30 12:55:00
推一个

Links booklink

Contact Us: admin [ a t ] ucptt.com