Re: [问题] 一个奇怪的汉字编码问题(Unihan?)

楼主: gugod (å•Š)   2015-09-16 07:03:57
※ 引述《flu (Crazy Rhythm)》之铭言:
: 杂想:
: 1. 有些网站能查询某个字的其他code point,像是“行”的三个
: 没有详细去看是否有另外提供列表下载
(这一点前封回章已经回应)
: 2. 如果加入了unicode的特性——可以两个字合成一个新字
: 比如说 U+328E (圈起来的金) 假设可以由 〇+金 组起来的话
: 〇先不谈,由于金也出现在上述B的三个表内
: 会处理这些字的场合又会复杂一点
U+328E 的“〇金”与 U+091D1 的“金”,在“字意”上通常指涉不同实物,
多半不必视为同样。私以为忽略便可。
如果是组字专用的码位,其名称都会有 "COMBINING" 这个字,而且实际上在档案中都
会是两个码位,所以其实很好处理。可以使用 "uni" 来找到所有 COMBINING 码位:
https://metacpan.org/pod/App::Uni
使用方法如:
> uni COMBINING
- U+00300 - COMBINING GRAVE ACCENT
- U+00301 - COMBINING ACUTE ACCENT
- U+00302 - COMBINING CIRCUMFLEX ACCENT
- U+00303 - COMBINING TILDE
....
也可以直接打字:
> uni 金
金- U+091D1 - CJK UNIFIED IDEOGRAPH-91D1
配合 charnames::viacode, ord 等函试,也可自行在程式中取得该码位在
Unicode 标准中的“名字”:
> perl -Mcharnames=:full -E 'say charnames::viacode("91D1")'
CJK UNIFIED IDEOGRAPH-91D1
> perl -Mutf8 -Mcharnames=:full -E 'say charnames::viacode(ord("金"))'
CJK UNIFIED IDEOGRAPH-91D1
也就是说工具都有了,要把组合专用的码位除掉,其实顶容易的。
: 3. 这算是汉字在unicode议题上的normalization议题吗?
: *1 https://en.wikipedia.org/wiki/Kangxi_radical#Unicode
: *2 列表在 http://www.unicode.org/charts/beta/normalization/index.html
: 有在持续更新的unicode说明的站(日文)
: http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/index_u.html
视用途了... 繁简转换及 z variant 比较像是 normalization 议题。
但通常是在搜寻这个领域的应用才比较需要。
作者: flu (Crazy Rhythm)   2015-09-16 18:29:00
长知识了~~

Links booklink

Contact Us: admin [ a t ] ucptt.com