[问题] 一个奇怪的汉字编码问题(Unihan?)

楼主: herculus6502 (金麟岂是池中物)   2015-08-05 21:22:40
在考选部公布的考毕试题 pdf 档案中,如果出现"流行"这个词
在 grep 的时候都会找不到
仔细检查后发现,在 linux 上这两个字比起用输入法打出来的字"略小",字码亦不同
但在 windows 上似乎刻意地都显示为较大的"流行"二字
实际上的例子我找到这个网页 http://cs.sungshin.ac.kr/~shim/demo/ksc5601-c.htm
里面的"流","行",各有两个编码存在
找到 wiki 上有关 unihan 的条目,觉得可能是这个问题
不知各位网友在实务上有无遇到过类似的问题? 或是该如何解决?
目前我是用 regex 去取代,但是怕还有其它未爆弹,不知有无现成的对应表?
perl -CSAD -ne 'print $1 if /([\x{f900}-\x{fa2d}])/g' *.txt
目前我只能先用这行找出有问题的字来转换
作者: buganini (霸格尼尼)   2015-09-27 22:49:00
过一次NFC或NFD就好了 (unicode里面的东西)

Links booklink

Contact Us: admin [ a t ] ucptt.com