[问题] 日文浊音问题

楼主: Ivudaisuki (イヴ大好き)   2021-07-21 19:07:45
小弟是个刚接触python不到一周的新手
前天心血来潮
我试着找网络上的影片写了一个爬虫程式
我想设计一个比较字串的程式来确认档案有没有重复下载
但当我用os.chdir()指令为资料夹的档案建立一个list后
只要出现日文浊音都会变成两个编码
例如“が”在网页上会是一个单字
但资料夹档案的list却会是“か”和“、、”
而在比较的时候就会把两个字串视为不同
例如“パンが好き”就会因为“パ”跟“が”
导致电脑判断错误
网络爬文都没有找到相关的问题
只知道好像是不同系统对于浊音的处理方式不同
但编码又都是utf-8
请问有办法把分开的浊音转换成一个字吗?
谢谢
作者: Sylph (仙客来)   2021-07-21 23:13:00
半角的问题吧
作者: ckc1ark (伪物)   2021-07-22 00:38:00
可以参考 unicodedata.normalize('NFC', ...)
作者: wangfake   2021-07-26 14:22:00
作者: tonyscat (Wall玛律呀)   2021-07-30 18:15:00

Links booklink

Contact Us: admin [ a t ] ucptt.com