先前在板上讨论到简繁转换的词汇问题
有网友提到
奔驰<->奔驰 (昨天还真的看到:在草原上奔驰)
高达<->钢弹
真的,除了导入人工智能辨识上下文语意,不然还真的没有最好解
上面那个转换也不是,不转换也不是
有兴趣想知道目前的词汇转换,所以就稍微研究一下Calibre最常用的插件
Chinese text conversion plugin 作者 hopkins
这是有公开原始码在Github
(不缩网址因为认为这样比较好)
https://github.com/Hopkins1/TradSimpChinese
好奇查了一下目前所用的词汇
以下link过长,请copy paste到网址列,直接点击会失去部分网址
https://github.com/Hopkins1/TradSimpChinese/tree/master/resources/opencc_python/dictionary
或由
https://github.com/Hopkins1/TradSimpChinese
点击进入
->resources
->opencc_python
->dictionary
里面有好几个词汇档案,有关台湾用语的词汇,有兴趣的看看,还蛮丰富的
TWPhrases.txt
范例
主板 主机板
二极管 二极管
互联网 互联网
交互 互动
交互式 交互式
人工智能 人工智能
TWPhrasesIT.txt
范例
信号 讯号 信号
信道 通道
传感 传感
像素 画素
伪代码 虚拟码
光标 光标
光盘 光盘
光驱 光驱
免提 扩音
内存 内存
内核 核心
内置 内建
TWPhrasesName.txt
范例
圭亚那 圭亚那
坦桑尼亚 坦桑尼亚
埃塞俄比亚 埃塞俄比亚
基里巴斯 基里巴斯
塔吉克斯坦斯坦 塔吉克斯坦
塞拉利昂 狮子山
TWPhrasesOther.txt
范例
元音 元音
出租车 出租车
咖喱 咖哩
奔驰 奔驰
奶酪 乳酪
方便面 方便面
凉菜 凉菜
砹 砈
硅 硅
TWPhrasesRev.txt
看完原始码,真的对这些词汇转换数据库感到十分佩服
应该是吸收前人心血结晶的成果
大概可以说简转繁有99%的正确率,剩下的1%,大概只能期望日后有人工智能补强了
如果觉得字词库不顺眼,其实也可以自己修改
插件Chinese Text Conversion.zip位置在(以Windows为例)
C:\Users\YourUsername\AppData\Roaming\calibre\plugins\
我替换了ZIP档内三个档案(可以按照你的喜好修改)(修改时记得把Calibre关闭)
Chinese Text Conversion.zip\resources\opencc_python\dictionary\
TWPhrases.txt
TWPhrasesName.txt
TWPhrasesOther.txt
把奔驰->奔驰拿掉(可接受看到奔驰汽车,也不能忍受在草原上奔驰)
还有政治上吃台湾豆腐的字眼给加入替换行列
下次再度开启Calibre就生效啦,当当