Re: [问题] 弃虾米 从仓颉 值不值得?

楼主: bibo9901 (function(){})()   2017-09-17 09:19:57
※ 引述《ANGELB (神仙B)》之铭言:
: 十五年前学了虾米
: 那时声势如虹 打字比赛接连冠军
: 在网络资讯较不如现今易于搜寻的时期
: 一度以为虾米是王道
: 学成之后 细细回想其实这输入法也还好而己
: 不知十几年前呒虾米赢过仓颉这股潮流根据的事实从何而来
: 后来看了这一系列的比较文 有条有理
: https://goo.gl/5U4zp
这篇文章对于重码字的分析很不严谨,
首先,只给出“重码表”而没有附上编码表的来源,不知如何检验起
其次,论证看似有条理,但实际上有大漏洞,
1. 只考虑 Big5 字,也没考虑字的出现机率。
自然语言有“齐夫定律”的现象,高频字出现的机率会是低频字的数百甚至数万
倍,高频字(如“精”、“睛”)重码就很令人困扰,低频字(如“筶”、“筜”
、“艡”)重码就没什么关系。
2. 重码率高,选字率就高,这是事实,但不代表打得慢!
呒虾米多数 2~3 码,即使要加上 VRSF 或 1234 选字,也不过是 3~4 码,比起仓
颉动不动就 4~5 码的,谁快谁慢很难说。
不能像原来里用一句“这项统计资料没有原始来源可供验证”来代过,更不能直
接推论选字率高等于需要的码数较多
第五代仓颉和呒虾米的编码表,在网络上都可以搜到,我统计出两种输入法的
总字数 重码字数 允许多种拆法的字数 平均码长
仓 70833 22552 (31.84%) 3941 ( 5.56%) 4.418 +- 0.76
呒 19680 14449 (73.42%) 7950 (40.40%) 3.558 +- 0.64
可以发现
1. 重码字数被严重低估了。尤其是呒虾米的重码字数更是直破天际。但其中大
多数是因为标点、符号等,例如“,J”就有 18 个候选字
2. 仓颉四码起跳是基本,而呒虾米很少超过四码。符合上面第二点的质疑,呒
虾米即使要选字也不会比较慢
3. 仓颉几乎没有容错空间,一个字就一种拆法,罕见字或异体字不会写就没救了
为了测试真实打字的情形,我从 Clueweb09 https://lemurproject.org/clueweb09/
取样了共2000万字当作语料库。这是 2009 年爬下来的中文网页,应该很符合现代人
输入的需要。我统计出一份字频表
https://github.com/iamalbert/ime-analysis/blob/master/cht.small.freq.json
另外,考虑实际输入,重码字也直接增加 1 码,如“囧”原来拆 OBN 三码,因为选字
变成 OBN2、OBNR 直接视为四码,假设一律用最短码输入,计算码长以字频加权:
最常使用的 13806 字 (语料库共 209491942 字)的情形
总字数 重码字数 多种拆法的字数 平均码长 加权码长
仓 11790 1456 (12.35%) 1181 (10.02%) 4.065 +- 0.76 3.519
呒 11797 7076 (59.98%) 5091 (43.16%) 3.407 +- 0.66 2.328
呒* 3.507 +- 0.65 2.651
呒** 3.579 +- 0.63 2.841
*: 假设只有 50% 的字用了最短码
**: 假设只有 30% 的字用了最短码
结论也很明显:
1. 如同网页所说,呒虾米用了一堆简码来解决重码问题,效果实在不怎么样,
就算背了全部的简根(100%),比起几乎不背(30%) 大概两个字只省 1 码
2. 呒虾米的一码二码字的安排比传统仓颉好太多了,仓颉只能省掉 0.5 码,呒
虾米可以省掉 1 码左右
3. 总地来说,呒虾米还是比仓颉快上 25% ~ 52% [注]
同场加映大新仓颉
总字数 重码字数 多种拆法的字数 平均码长 加权码长
大新 11879 7648 (64.38%) 5482 (46.15%) 3.451 +- 0.71 2.042
大新* 3.553 +- 0.71 2.431
大新** 3.601 +- 0.70 2.614
毫无疑问地乐胜呒虾米,尤其平均 2 码真是太销魂了 :)
由此可见重码、容错都不是问题,只要常用字够短,速度就会快。
TL;DR
大新仓颉 > 呒虾米 >> 传统仓颉
原始码都在 https://github.com/iamalbert/ime-analysis
[注] 打字速度(理论上)就是加权码长的反比。我相信这样算是很准的,
呒虾米加权码长/大新加权码长 = 2.138/2.042 = 114.39%
大新最快记录/呒虾米最快记录 = 238每分 / 209每分 = 113.88%
: 其实都被他说完了
: 说实在的 输入法不够理想是其次
: 重要的是使用不方便
: 现在公领域中 很常会用到电脑
: 购物啦
: 诚品书店查书的iPad啦
: 等等
: 根本没有虾米可打
: 不开放是一回事
: 不管什么系统
: 行易的动作总是慢吞吞
: 支援度很差
: 反之
: 仓颉无处不在
: 连PS4游戏机的OS繁中底下的输入法
: 竟然只有两种
: 一为注音
: 一为仓颉
: 仓颉的方便性
: 可能是拆字输入法的第一名吧
: 不知道弃虾米从仓颉
: 砍掉重练 投资报酬率值不值得?
这其实真的还好,就忍受那一两分钟而已,平常打game时的速度比较重要
作者: weiih (weiih)   2017-09-17 10:57:00
认真给推
作者: deltazone (洋葱)   2017-09-17 14:59:00
推!
作者: magicbe (魔幻小鳖)   2017-09-17 20:21:00
神の分析,与2183一样,非常棒的参考资料
作者: goldie (阿良)   2017-09-18 00:31:00
推!
作者: Tsai07 (蔡小豪)   2017-09-18 19:14:00
弱弱问一下什么是重码率?
作者: goldie (阿良)   2017-09-18 22:46:00
重码率… 多字同一拆码的字数总和… 比上全部字数…的比例。
作者: vaper (风雨飘摇的世代)   2017-09-29 18:49:00
字码多,重码率就低,反之亦然。呒的优势就限制在四码虽然重码率较高,但再辅以二码常用字,整体消长下是较优的光谱两端没有孰是孰非,只是平衡与效率的问题简单说,如果你用注音就能快嘴呛爆对方,何必用其他输入法
作者: ming12345   2017-10-09 14:55:00
呒虾米加选字,和仓颉四五码的按键数相比,未必会输,但选字简码要另记,仓颉则完全依照规则,各有利弊原文是:[呒虾米 6000 字有 311 个选字,2000 字有 33个选字,1000 字有 8 个选字。这项统计资料没有原始来源可供验证。]所以是呒虾米低重码的资料没有原始来源,不是仓颉低重码的资料没有原始来源,你拿这句话来批,是不是断章取义了
作者: oktryit (Dino)   2017-10-26 05:31:00
我个人也是觉得日常用字应该是呒 >>> 仓,效率乐胜之前也有接触一下大新仓颉,也蛮快的就是惹,但先学先赢这是不争的事实,反正呒虾米打够快惹,就懒得换大新。附注一下,我大概用了 70% 以上的简根,二码字,有一些会反手的就不用二码字,例如,跟 =qz,汽 = wz,债 = dz贵 = qa 也蛮少用的,我反而会打 cemb,主要是小指按的字一来会转换成其他方式,一来就是小指没什么力气结论是,我认为要打的过,按键的顺序性也有差,不然就不会有人转换 Dvorak 键盘来打字,呒虾米似乎没考虑到这好在,q 或 z 的字根不多,但是 a 的字根就很多就是了。

Links booklink

Contact Us: admin [ a t ] ucptt.com