Re: [讨论] 呒虾米规则和中文日文韩文大一统

楼主: Frozenmouse (*冰之鼠*)   2015-06-29 22:26:51
※ 引述《deltazone (洋葱)》之铭言:
: : 之前可能是我的误解
: : 那这边我用我的话解释,你看看我有没有理解错误 O_O
: : 先简化问题,单纯就汉字来说
: : “大字库”是一个纳入了所有汉字正规编码、简码与容错编码的编码表
: : 这边的容错包含了同语言的异体字以及不同语言的同源字
: : 而“同源”是指像“龙、竜、龙”或是“体、体”这样的字群
: : 所以打 LUL、LQL 或 AXF,龙、竜、龙都会同时出现在选字区
: : 这边再辅以“语言模式”的功能,来决定第一顺位的排序
: : 比方说,就算我打的是 LQL = 竜,我在简中模式底下的第一顺位也还是“龙”
: : 就算我拆的是 YJFK = 壊,我在繁中也还是以“坏”为第一顺位
: : 是这样吗?
: 我用字也不够精确,
: 另外大致没错!!!
: 担心误会再补一个说明,目前虾米所包含的中文字
: 以现有的呒虾米字码不变为准,不增加编码,不减少编码
: 其实编码都没变,只是把日 简 繁 同样的编码(如lul)都统整在选字列中!
: 现行的简体中文模式下:打lul会出现"龙",但在繁体中文模式中,
: 打lul却无法出现"龙",改变成可以在字的选单中都出现"龙"
OK 我懂了,现在我们想的是一样的东西了…XDDD
那我想这大字库至少需要定义几项东西
首先是一个文字的拆码
有点像废话,不过这是实际的问题 XD
而为了达成前述跨语言整合的效果,需要有人去整理我所说的同源字有哪些
现行的编码表应该已经有相当程度的整理了
否则做不到打繁出简或日文模式的汉字输出
所以重点就是缺口有哪些了
再来是该文字在各种模式下的优先序
更精确来说,应该是考虑该文字的某种特定拆法的优先序
这会关系到切模式时或是撞码时排序的问题
像是“围、叶、啐、囲、叶”通通拆 OJJ
哪些属于繁中,哪些属于简中,哪些是日文?
如果不属于该语言就可以不定义优先序,通通塞到最后面就好了
若是该语言中有这些字,但拆法来自不同语言
则可用该语言的拆法为优先,其他语言为后
若是这些字同属于该语言,那最后就是走现行的编码顺序
所以打 OJJ
繁中模式可能会排成“围、叶、啐、囲、叶”
日文模式可能会排成“囲、叶、叶、围、啐”(其中“啐”在现行日文模式打不出来)
简中…我懒得切输入法了,同理推论 Orz
: ===========================================================================
: 我觉得是不是误会,以为我说要在中文模式下也要打日文很有效率!(不是这样)
: 这不是我的初衷,在每个模式(日简繁)时,是定义在此模式下,打此语言最有效率!
:
: "大字库"的用意是每个模式(日简繁)下,都可以用选字的方式,打出不同语言的文字!
: 虽然打不同语言文字时速度比较慢,因为要选字,但至少能打出来!
: 且此方式,不影响此模式下,该语言文字输入的速度!
:
: 然后不要说这会拖慢输入法的速度了XD
: 使用繁体中文模式!繁体中文还是一样快!
: 但可以在繁中模式下,打出简体字和日本汉字如此而已!!
: ============================================================================
是误会,我并没有“在中文模式下有效率地输入日文”这样的意思
可能是我表达的问题吧 Orz
: 至于怎样才合格,你用的高兴就算合格XD (开玩笑的别介意)
: 只是不知道怎么回答了!
:
: 中文模式下,就照原本的方式输入日文,
: 如打sa,等
: 但如打sa也出现さ和サ 在字的选单中,只是绝对不是在第一顺位
: (这点可以讨论,详细日文你比我熟! 你来提建议如何 修改好了XD)
既然合不合格是自由心证,那我的想法是:不要改
或者说,不要打掉原来的编码,我较倾向的是修正和补完
呒虾米的一些编码其实就等于是把选字的动作内化了,我想善用这点
刚刚研究了一下现在的日文模式假名编码,至少有以下规则:
(我是用官方提供的 gcin 日文模式表格试的)
* 以罗马拼音为基础,以“,”结尾输入平假名,以“.”为结尾输入片假名
- 含有一定程度的容错能力,如 TSU, TU, 都能出“つ”, LA, RA, 都能出“ら”
* 以罗马拼音后接 V 输入小型的假名,如 TUV, = っ
* 以 L 或 X 为开头也能输入小型的假名,如 LTU, = っ
* 拗音如きゅ可以一次输出两字,以此例为 KYU,
* 特殊规则,如 っ 尚有 SS, TT, 等拆法,ー(长音符号)拆成 EE, 或 EE.
日文模式的汉字就不赘述了,对擅长字形的华语人士来说不成问题
里面确实可以找到几个问题
首先是假名的规则不透明
上面这些不是我无聊试出来的,就是刚刚去官网查码交叉比对来的
官网给的规则只写了这些:http://boshiamy.com/feature_basic_4_1.html
但有其他字如 VA. = ヷ、ヴァ 没写出来
而本身也有撞码而与一般罗马拼音选字序不同的地方
像 LA, 我期待出的字是“ぁ”,但第一候选字是“ら”
像 VA. 第一候选字是“ヷ”,可我期待的是“ヴァ”
再来是标点符号
我们的逗号是“,”,但日文中作为同样用途的是“、”,也就是我们的顿号
“,”反而比较少用
虽然这可能影响不大,但和英文输入的习惯不一样的话,还是会卡卡的
要改进有几个方向
* 仿照拗音的出字方式,加速促音的输入
- 如打 KKU, 可以输入“っく”两字,会比分开打 TT, KU, 来得快且直觉
* 增加“、”拆码“,”,在日文模式下比“,”优先输出
- 理由同上,“、”比“,”虽然功能一样但更常用
* L* 的假名编码改以小字优先,再来才是ら行容错
- “ら”多数人会选择打 RA, 而非 LA,
* V* 的假名编码以“ヴ”的复合发音为优先,再来才是ヷ行字
- 前者较后者常用…至少我自己是很少看到后者
* 规则透明化,官网真的写得太简略了
- “々”(汉字叠字)也算是常用符号,但我还得分开特别查才知道能怎么打…
以上是日文程度 N95 的小弟一点见解 XD
: 补充说明:
: 优化日文,加入韩文,在如繁体中文模式下,大多打韩文和日文还是都会偏慢!
: 因为要选字!
: 只是因为大字库的关系,在繁体中文模式下,也可以打得出来日文和韩文!
: 同理韩文模式下,打繁体中文也会变慢!但也可以打出繁体中文来!
这个我现在理解你想做的是什么了
: 想反问,各位大大,那有什么其他的改变可以帮助呒虾米走出台湾呢?
这个我还真的不知道…(倒
不过就你前面对我提出的客群的回应,你最大的重点就是“走出台湾”
而手段之一是“让呒虾米不只是中文输入法”
这也没有绝对的对或错,就只是个方法
我的看法是,呒虾米现在本身的环境是封闭的
在不了解法律的状况下
我怕对它的编码表做什么事,或是基于它衍生新的编码表,并且公开
会不会有法律上的问题
于是只能龟在这里打打嘴砲提建议,官方接不接受又是另一回事
至于没内建、授权问题这些前人也提过很多次了
要是能走出这个封闭的环境,应该会比较好推广
: : 简码能加速是因为我们大量的常用字被配了简码,进而大幅减少输入的字码数
: : 如果日文的常用字和我们差太多,可能会发生冷门字反而在呒虾米有简码的状况
: : 或是反过来,常用字反而得用正规拆码
: : 我指的是这件事 XD
: 应该是我上面所说的问题?
: 我是用模式(日简中)去区分!
我指的是像下面的状况
比方说“对”这个字,在中文它很明显非常常用,被指派了简码 A
但日文中“対”就没有像中文那样这么常用
那这个简码在日文加速的效果就不明显了
我明白你所说的切换语言模式不影响原本输入速度的原因
但我的问题不在这里
: → deltazone: 还有做变形字根表,但一踏入才知汉字之大XD 06/29 17:08
: → deltazone: 可是属于一头热型! 目前变形和简体字表难产中XD 06/29 17:09
多少可以体会刘先生当初发明呒虾米的辛苦了吧 XD
这部分如果有办法让多人共同作业的话,可能会轻松一点
作者: xxvi (与我怀抱相同的异教信仰)   2015-06-30 09:17:00
如果大字库指的是把同源(编码相同?)的字甚至符号全部列出,那么感觉会比现有的候选字串长很多?这大概就需要留给呒虾米公司评估实用性跟推出后能不能吸引新使用者了,我个人是偏好它打字时几乎可以不看候选字串这一点就是XD另外自制编码表作为建议应该是没有问题的,但是“对现有编码表做什么”这边我不太懂,如果是要自己建一套测试版的新虾米输入并发布可能有疑虑,不过提出修正想法公开讨论或提给公司的话应该没有太大问题啦:~
楼主: Frozenmouse (*冰之鼠*)   2015-06-30 11:36:00
没有错,假设今天我有时间整理了一个基于呒虾米的改进表格,自行发布给人试用,那可能就会有问题…所以不是用其他方式规避就是只能交给官方决定了我那句主要指的是这个XD至于大字库的候选字,以他的论点来说,应该是在不破坏繁中现有编码的前提下做这件事,若排序得好的话打起来手感应该是和现在一样的同源指的是跨语言判定属同义的字,不知有无正式名称
作者: deltazone (洋葱)   2015-06-30 23:51:00
同源应该是指中日韩统一表意文字!?unicode编码连结打不上 自行维基百科 "中日韩统一表意文字"
楼主: Frozenmouse (*冰之鼠*)   2015-07-01 01:28:00
很接近,但我不确定有无因为异体字而被编成两个码的另外像叶(cn)和叶(tw&jp)是被我归在同源的CJK统一表意文字则着重在字形https://goo.gl/J0zIiP 这是中文维基条目可能要找其他名称,同源会和统一汉字的来源混淆XD
作者: deltazone (洋葱)   2015-07-01 04:49:00
把现有呒虾米 繁 简 日 模式中 所有字 所有编码 统整就可以初步解决 "𩾌" 在繁中模式 找不到状况!也是我所说的大字库 的雏型了 没那么复杂现行的简体模式打 rst可以打出"叶"现行的繁体模式打 ojj也可以打出叶(只是要选字)异体字的部分 之前整理变形字根有遇过!如:"奂""换"有些字体 下面是两点如八 看着字打 打不出中日韩统一表意文字 的确 和你说的不太一样! XD目前可以联想到的是 大陆官方发行的 简化字 对照表另外 编码表要补缺口 我觉得看要(能)做到什么程度!?不补缺口其实也可 只是做的比较粗浅,像andriod手机 使用lime-hd打呒虾米那样!另外"对"简码的问题,提个方案,日文模式下,简码重订但打a 也可以找到 "对"XD 只是在后面的顺序!有点大胆,但本着各个模式其实是独立的输入法看待!

Links booklink

Contact Us: admin [ a t ] ucptt.com