Re: [问题] 一个奇怪的汉字编码问题(Unihan?) gugod PTT批踢踢实业坊

Re: [问题] 一个奇怪的汉字编码问题(Unihan?)

楼主: gugod (å•Š) 2015-09-16 07:03:57

※ 引述《flu (Crazy Rhythm)》之铭言：
: 杂想：
: 1. 有些网站能查询某个字的其他code point，像是“行”的三个
: 没有详细去看是否有另外提供列表下载
(这一点前封回章已经回应)
: 2. 如果加入了unicode的特性——可以两个字合成一个新字
: 比如说 U+328E (圈起来的金) 假设可以由〇+金组起来的话
: 〇先不谈，由于金也出现在上述B的三个表内
: 会处理这些字的场合又会复杂一点
U+328E 的“〇金”与 U+091D1 的“金”，在“字意”上通常指涉不同实物，
多半不必视为同样。私以为忽略便可。
如果是组字专用的码位，其名称都会有 "COMBINING" 这个字，而且实际上在档案中都
会是两个码位，所以其实很好处理。可以使用 "uni" 来找到所有 COMBINING 码位：
https://metacpan.org/pod/App::Uni
使用方法如：
> uni COMBINING
- U+00300 - COMBINING GRAVE ACCENT
- U+00301 - COMBINING ACUTE ACCENT
- U+00302 - COMBINING CIRCUMFLEX ACCENT
- U+00303 - COMBINING TILDE
....
也可以直接打字:
> uni 金
金- U+091D1 - CJK UNIFIED IDEOGRAPH-91D1
配合 charnames::viacode, ord 等函试，也可自行在程式中取得该码位在
Unicode 标准中的“名字”：
> perl -Mcharnames=:full -E 'say charnames::viacode("91D1")'
CJK UNIFIED IDEOGRAPH-91D1
> perl -Mutf8 -Mcharnames=:full -E 'say charnames::viacode(ord("金"))'
CJK UNIFIED IDEOGRAPH-91D1
也就是说工具都有了，要把组合专用的码位除掉，其实顶容易的。
: 3. 这算是汉字在unicode议题上的normalization议题吗？
: *1 https://en.wikipedia.org/wiki/Kangxi_radical#Unicode
: *2 列表在 http://www.unicode.org/charts/beta/normalization/index.html
: 有在持续更新的unicode说明的站(日文)
: http://www.asahi-net.or.jp/~ax2s-kmtn/ref/unicode/index_u.html
视用途了... 繁简转换及 z variant 比较像是 normalization 议题。
但通常是在搜寻这个领域的应用才比较需要。

作者: flu (Crazy Rhythm) 2015-09-16 18:29:00

长知识了~~

继续阅读

Re: [问题] 一个奇怪的汉字编码问题(Unihan?)gugod Re: [请益] B::Bytecode compiler 有人用过吗?dk1120 [问题] Bernese自动化处理的Perl语言之errorodovai Re: [请益] B::Bytecode compiler 有人用过吗?Neisseria [请益] B::Bytecode compiler 有人用过吗?dk1120 Re: [问题] 一个奇怪的汉字编码问题(Unihan?)flu [问题] 一个奇怪的汉字编码问题(Unihan?)herculus6502 Re: [问题] Linux上输出Big5中文至打印机dk1120 [问题] Linux上输出Big5中文至打印机dk1120 [买书] perl 食谱上下a883077