[问题] 请问python3.0怎么去除半型全型标点符号

楼主: ptero (ptero)   2015-04-05 20:46:44
由于中文资料中会有全角半型标点混杂使用,而且也太多种难以列举。
想问有没有比较聪明的方法解决。
作者: Francophone (aiuto)   2015-04-05 21:44:00
ASCII code?
作者: BelkanWar (哼哼)   2015-04-05 21:53:00
用replace,把全角通通转成半角
楼主: ptero (ptero)   2015-04-05 22:00:00
utf-8。 replace 有能一次把全部全型转半行型的方法?
作者: ccwang002 (亮)   2015-04-05 23:23:00
http://codex.wiki/post/183789-524/去算 codepoint 蛮容易炸的,用 dict 列举比较保险上面那个 code 要再调整,吃到 ',' 和 '“”' 都有问题https://gist.github.com/b225921b98ca864d0dd6可以搭配 unicodedata.east_asian_width 去判算字宽
作者: uranusjr (←這人是超級笨蛋)   2015-04-05 23:33:00
0x3000 是 ideographic space, 真正的全型空白其实确实有和其他字符连在一起, 是 0xff00; 这种转换其实除了上面的全半角对应外真的没有特别好的方法, 不如列举没事别乱捅 Unicode 这蚂蜂窝, 不然怎么死的都不知道
楼主: ptero (ptero)   2015-04-06 12:14:00
感谢

Links booklink

Contact Us: admin [ a t ] ucptt.com