[闲聊] 在 M$ 环境下读档 apua PTT批踢踢实业坊

[闲聊] 在 M$ 环境下读档

楼主: apua (Apua) 2014-02-27 16:35:04

分享一个这两天遇到焦头烂额的问题
在 M$ Windows 上档名有时会碰到表意文字补充区[1]的字
他不列在 CP950 (Big5) 里, 可是档名确实存在该字
如果用 Python os.listdir() 或 Popen('dir',...) 读出来的话,
会自动转为 CP950 的同义字 (也就是说该字会被偷偷改成别的字)
.. [1]: http://en.wikipedia.org/wiki/CJK_Compatibility_Ideographs_Supplement
这里举一个表意文字的例子::
>>> s = u'\u57fa\uf90a'
>>> print s
基金
>>> s.encode('CP950')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeEncodeError: 'cp950' codec can't encode character u'\uf90a' in
position 1: illegal multibyte sequence
从 print out 的结果看来, 这个 "金" 字没有异常
但事实上他根本不是一般的 "金" 字 (正常的 "金" 理应为 u'\u91d1')
在 M$ Windows 上, 如果复制 ``print s`` 的结果存成一个档名, 将会遇到以下状况::
>>> import os; A = os.listdir('.'); A
['\xb0\xf2\xaa\xf7']
>>> A[-1].decode('CP950')
u'\u57fa\u91d1'
>>> open(A[-1])
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
IOError: [Errno 2] No such file or directory: '\xb0\xf2\xaa\xf7'
显然原因是 "金" 那个字从根本上被改掉了, 所以档案找不到
然后? 然后我们设计的程式就爆炸了.....(上百个档案都有这个字....)
原来正确的作法是 **给予 path 时就使用 unicode** ::
>>> import os; A = os.listdir(u'.'); A
[u'\u57fa\uf90a']
往后所有字串都使用 unicode 操作, 就不会爆炸了
据说事实上 M$ Windows 存盘名就是用 unicode
我还没找到 "nt" 这个内建的 module 的 source code ,
还不清楚它是怎么实作/呼叫哪个函数的

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2014-02-28 02:03:00

Windows 是用 UTF-16, 不过以微软的语言这个是叫 Unicode

作者: zha0 (这个帐号是挂网用) 2014-03-01 13:26:00

我以前也遇过，那时用 python 2.x, 最后用 win32 api 找档

楼主: apua (Apua) 2014-03-03 15:48:00

敢问楼上 win32api 如何取得档名 (eg: listdir 功能)?因为我们曾试着找过但失败了 (win32api 文件写的有点差?)

作者: uranusjr (â†é€™äººæ˜¯è¶…ç´šç¬¨è›‹) 2014-03-03 17:58:00

给楼上 http://d.pr/MEXg

楼主: apua (Apua) 2014-03-04 09:41:00

thx

继续阅读

Re: [问题] 字串处理 - 简化程式码pycontw [问题] 有没有人写过python平行处理tonykai Re: [问题] 字串处理 - 简化程式码auoauo Re: [问题] 网络上有关于资料结构使用Python的教学Neisseria [问题] 网络上有关于资料结构使用Python的教学epapitera [问题] 字串处理 - 简化程式码zha0 [问题] 有关subprocess的问题tonykai [问题] 同时截取网页并输出数笔资料Mokia [问题] Single statement questionmeld [情报] 近期 Python 社群活动资讯apua