※ 引述《deltazone (洋葱)》之铭言:
: : 之前可能是我的误解
: : 那这边我用我的话解释,你看看我有没有理解错误 O_O
: : 先简化问题,单纯就汉字来说
: : “大字库”是一个纳入了所有汉字正规编码、简码与容错编码的编码表
: : 这边的容错包含了同语言的异体字以及不同语言的同源字
: : 而“同源”是指像“龙、竜、龙”或是“体、体”这样的字群
: : 所以打 LUL、LQL 或 AXF,龙、竜、龙都会同时出现在选字区
: : 这边再辅以“语言模式”的功能,来决定第一顺位的排序
: : 比方说,就算我打的是 LQL = 竜,我在简中模式底下的第一顺位也还是“龙”
: : 就算我拆的是 YJFK = 壊,我在繁中也还是以“坏”为第一顺位
: : 是这样吗?
: 我用字也不够精确,
: 另外大致没错!!!
: 担心误会再补一个说明,目前虾米所包含的中文字
: 以现有的呒虾米字码不变为准,不增加编码,不减少编码
: 其实编码都没变,只是把日 简 繁 同样的编码(如lul)都统整在选字列中!
: 现行的简体中文模式下:打lul会出现"龙",但在繁体中文模式中,
: 打lul却无法出现"龙",改变成可以在字的选单中都出现"龙"
OK 我懂了,现在我们想的是一样的东西了…XDDD
那我想这大字库至少需要定义几项东西
首先是一个文字的拆码
有点像废话,不过这是实际的问题 XD
而为了达成前述跨语言整合的效果,需要有人去整理我所说的同源字有哪些
现行的编码表应该已经有相当程度的整理了
否则做不到打繁出简或日文模式的汉字输出
所以重点就是缺口有哪些了
再来是该文字在各种模式下的优先序
更精确来说,应该是考虑该文字的某种特定拆法的优先序
这会关系到切模式时或是撞码时排序的问题
像是“围、叶、啐、囲、叶”通通拆 OJJ
哪些属于繁中,哪些属于简中,哪些是日文?
如果不属于该语言就可以不定义优先序,通通塞到最后面就好了
若是该语言中有这些字,但拆法来自不同语言
则可用该语言的拆法为优先,其他语言为后
若是这些字同属于该语言,那最后就是走现行的编码顺序
所以打 OJJ
繁中模式可能会排成“围、叶、啐、囲、叶”
日文模式可能会排成“囲、叶、叶、围、啐”(其中“啐”在现行日文模式打不出来)
简中…我懒得切输入法了,同理推论 Orz
: ===========================================================================
: 我觉得是不是误会,以为我说要在中文模式下也要打日文很有效率!(不是这样)
: 这不是我的初衷,在每个模式(日简繁)时,是定义在此模式下,打此语言最有效率!
:
: "大字库"的用意是每个模式(日简繁)下,都可以用选字的方式,打出不同语言的文字!
: 虽然打不同语言文字时速度比较慢,因为要选字,但至少能打出来!
: 且此方式,不影响此模式下,该语言文字输入的速度!
:
: 然后不要说这会拖慢输入法的速度了XD
: 使用繁体中文模式!繁体中文还是一样快!
: 但可以在繁中模式下,打出简体字和日本汉字如此而已!!
: ============================================================================
是误会,我并没有“在中文模式下有效率地输入日文”这样的意思
可能是我表达的问题吧 Orz
: 至于怎样才合格,你用的高兴就算合格XD (开玩笑的别介意)
: 只是不知道怎么回答了!
:
: 中文模式下,就照原本的方式输入日文,
: 如打sa,等
: 但如打sa也出现さ和サ 在字的选单中,只是绝对不是在第一顺位
: (这点可以讨论,详细日文你比我熟! 你来提建议如何 修改好了XD)
既然合不合格是自由心证,那我的想法是:不要改
或者说,不要打掉原来的编码,我较倾向的是修正和补完
呒虾米的一些编码其实就等于是把选字的动作内化了,我想善用这点
刚刚研究了一下现在的日文模式假名编码,至少有以下规则:
(我是用官方提供的 gcin 日文模式表格试的)
* 以罗马拼音为基础,以“,”结尾输入平假名,以“.”为结尾输入片假名
- 含有一定程度的容错能力,如 TSU, TU, 都能出“つ”, LA, RA, 都能出“ら”
* 以罗马拼音后接 V 输入小型的假名,如 TUV, = っ
* 以 L 或 X 为开头也能输入小型的假名,如 LTU, = っ
* 拗音如きゅ可以一次输出两字,以此例为 KYU,
* 特殊规则,如 っ 尚有 SS, TT, 等拆法,ー(长音符号)拆成 EE, 或 EE.
日文模式的汉字就不赘述了,对擅长字形的华语人士来说不成问题
里面确实可以找到几个问题
首先是假名的规则不透明
上面这些不是我无聊试出来的,就是刚刚去官网查码交叉比对来的
官网给的规则只写了这些:http://boshiamy.com/feature_basic_4_1.html
但有其他字如 VA. = ヷ、ヴァ 没写出来
而本身也有撞码而与一般罗马拼音选字序不同的地方
像 LA, 我期待出的字是“ぁ”,但第一候选字是“ら”
像 VA. 第一候选字是“ヷ”,可我期待的是“ヴァ”
再来是标点符号
我们的逗号是“,”,但日文中作为同样用途的是“、”,也就是我们的顿号
“,”反而比较少用
虽然这可能影响不大,但和英文输入的习惯不一样的话,还是会卡卡的
要改进有几个方向
* 仿照拗音的出字方式,加速促音的输入
- 如打 KKU, 可以输入“っく”两字,会比分开打 TT, KU, 来得快且直觉
* 增加“、”拆码“,”,在日文模式下比“,”优先输出
- 理由同上,“、”比“,”虽然功能一样但更常用
* L* 的假名编码改以小字优先,再来才是ら行容错
- “ら”多数人会选择打 RA, 而非 LA,
* V* 的假名编码以“ヴ”的复合发音为优先,再来才是ヷ行字
- 前者较后者常用…至少我自己是很少看到后者
* 规则透明化,官网真的写得太简略了
- “々”(汉字叠字)也算是常用符号,但我还得分开特别查才知道能怎么打…
以上是日文程度 N95 的小弟一点见解 XD
: 补充说明:
: 优化日文,加入韩文,在如繁体中文模式下,大多打韩文和日文还是都会偏慢!
: 因为要选字!
: 只是因为大字库的关系,在繁体中文模式下,也可以打得出来日文和韩文!
: 同理韩文模式下,打繁体中文也会变慢!但也可以打出繁体中文来!
这个我现在理解你想做的是什么了
: 想反问,各位大大,那有什么其他的改变可以帮助呒虾米走出台湾呢?
这个我还真的不知道…(倒
不过就你前面对我提出的客群的回应,你最大的重点就是“走出台湾”
而手段之一是“让呒虾米不只是中文输入法”
这也没有绝对的对或错,就只是个方法
我的看法是,呒虾米现在本身的环境是封闭的
在不了解法律的状况下
我怕对它的编码表做什么事,或是基于它衍生新的编码表,并且公开
会不会有法律上的问题
于是只能龟在这里打打嘴砲提建议,官方接不接受又是另一回事
至于没内建、授权问题这些前人也提过很多次了
要是能走出这个封闭的环境,应该会比较好推广
: : 简码能加速是因为我们大量的常用字被配了简码,进而大幅减少输入的字码数
: : 如果日文的常用字和我们差太多,可能会发生冷门字反而在呒虾米有简码的状况
: : 或是反过来,常用字反而得用正规拆码
: : 我指的是这件事 XD
: 应该是我上面所说的问题?
: 我是用模式(日简中)去区分!
我指的是像下面的状况
比方说“对”这个字,在中文它很明显非常常用,被指派了简码 A
但日文中“対”就没有像中文那样这么常用
那这个简码在日文加速的效果就不明显了
我明白你所说的切换语言模式不影响原本输入速度的原因
但我的问题不在这里
: → deltazone: 还有做变形字根表,但一踏入才知汉字之大XD 06/29 17:08
: → deltazone: 可是属于一头热型! 目前变形和简体字表难产中XD 06/29 17:09
多少可以体会刘先生当初发明呒虾米的辛苦了吧 XD
这部分如果有办法让多人共同作业的话,可能会轻松一点