※ 引述《ANGELB (神仙B)》之铭言:
: 十五年前学了虾米
: 那时声势如虹 打字比赛接连冠军
: 在网络资讯较不如现今易于搜寻的时期
: 一度以为虾米是王道
: 学成之后 细细回想其实这输入法也还好而己
: 不知十几年前呒虾米赢过仓颉这股潮流根据的事实从何而来
: 后来看了这一系列的比较文 有条有理
: https://goo.gl/5U4zp
这篇文章对于重码字的分析很不严谨,
首先,只给出“重码表”而没有附上编码表的来源,不知如何检验起
其次,论证看似有条理,但实际上有大漏洞,
1. 只考虑 Big5 字,也没考虑字的出现机率。
自然语言有“齐夫定律”的现象,高频字出现的机率会是低频字的数百甚至数万
倍,高频字(如“精”、“睛”)重码就很令人困扰,低频字(如“筶”、“筜”
、“艡”)重码就没什么关系。
2. 重码率高,选字率就高,这是事实,但不代表打得慢!
呒虾米多数 2~3 码,即使要加上 VRSF 或 1234 选字,也不过是 3~4 码,比起仓
颉动不动就 4~5 码的,谁快谁慢很难说。
不能像原来里用一句“这项统计资料没有原始来源可供验证”来代过,更不能直
接推论选字率高等于需要的码数较多
第五代仓颉和呒虾米的编码表,在网络上都可以搜到,我统计出两种输入法的
总字数 重码字数 允许多种拆法的字数 平均码长
仓 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76
呒 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64
可以发现
1. 重码字数被严重低估了。尤其是呒虾米的重码字数更是直破天际。但其中大
多数是因为标点、符号等,例如“,J”就有 18 个候选字
2. 仓颉四码起跳是基本,而呒虾米很少超过四码。符合上面第二点的质疑,呒
虾米即使要选字也不会比较慢
3. 仓颉几乎没有容错空间,一个字就一种拆法,罕见字或异体字不会写就没救了
为了测试真实打字的情形,我从 Clueweb09 https://lemurproject.org/clueweb09/
取样了共2000万字当作语料库。这是 2009 年爬下来的中文网页,应该很符合现代人
输入的需要。我统计出一份字频表
https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json
另外,考虑实际输入,重码字也直接增加 1 码,如“囧”原来拆 OBN 三码,因为选字
变成 OBN2、OBNR 直接视为四码,假设一律用最短码输入,计算码长以字频加权:
最常使用的 13806 字 (语料库共 209491942 字)的情形
总字数 重码字数 多种拆法的字数 平均码长 加权码长
仓 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519
呒 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328
呒* 3.507 +- 0.65 2.651
呒** 3.579 +- 0.63 2.841
*: 假设只有 50% 的字用了最短码
**: 假设只有 30% 的字用了最短码
结论也很明显:
1. 如同网页所说,呒虾米用了一堆简码来解决重码问题,效果实在不怎么样,
就算背了全部的简根(100%),比起几乎不背(30%) 大概两个字只省 1 码
2. 呒虾米的一码二码字的安排比传统仓颉好太多了,仓颉只能省掉 0.5 码,呒
虾米可以省掉 1 码左右
3. 总地来说,呒虾米还是比仓颉快上 25% ~ 52% [注]
同场加映大新仓颉
总字数 重码字数 多种拆法的字数 平均码长 加权码长
大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042
大新* 3.553 +- 0.71 2.431
大新** 3.601 +- 0.70 2.614
毫无疑问地乐胜呒虾米,尤其平均 2 码真是太销魂了 :)
由此可见重码、容错都不是问题,只要常用字够短,速度就会快。
TL;DR
大新仓颉 > 呒虾米 >> 传统仓颉
原始码都在 https://github.com/iamalbert/ime-analysis
[注] 打字速度(理论上)就是加权码长的反比。我相信这样算是很准的,
呒虾米加权码长/大新加权码长 = 2.138/2.042 = 114.39%
大新最快记录/呒虾米最快记录 = 238每分 / 209每分 = 113.88%
: 其实都被他说完了
: 说实在的 输入法不够理想是其次
: 重要的是使用不方便
: 现在公领域中 很常会用到电脑
: 购物啦
: 诚品书店查书的iPad啦
: 等等
: 根本没有虾米可打
: 不开放是一回事
: 不管什么系统
: 行易的动作总是慢吞吞
: 支援度很差
: 反之
: 仓颉无处不在
: 连PS4游戏机的OS繁中底下的输入法
: 竟然只有两种
: 一为注音
: 一为仓颉
: 仓颉的方便性
: 可能是拆字输入法的第一名吧
: 不知道弃虾米从仓颉
: 砍掉重练 投资报酬率值不值得?
这其实真的还好,就忍受那一两分钟而已,平常打game时的速度比较重要