[问题] 中文字内容的utf-8编码xml档之处理

楼主: kino818 (好多梦 层层叠叠又斑驳)   2023-12-08 23:20:11
各位大大 晚安
有一个cd_catalog.xml档案(以utf-8编码)如下
<CATALOG>
<CD>
<ARTIST>&#x5468;&#x6770;&#x502b</ARTIST>
</CD>
</CATALOG>
上面是某设备的输出档案cd_catalog.xml(以utf-8编码)
以Windows 10的笔记本notepad打开,看到是上面unicode编码方式
我不知道第一个字符&#x5468,为何不是\u5468的unicode编码表示方式?
上面unicode编码处是下面的"周杰伦"
<CATALOG>
<CD>
<ARTIST>周杰伦</ARTIST>
</CD>
</CATALOG>
有读过python的xml处理的书
也问过bing copilot(chatGPT)
还是不了解用笔记本打开cd_catalog.xml是上面第一种编码方式,如何用python程式码
Windows notepad打开可转成上面第二种中文字显示的unicode档
decoded_string = bytes(unicode_string, "utf-8").decode("unicode_escape")
除此之外,上面程式码也不了解
再请各位大大指引方向,我再去看相关资料
谢谢大大
作者: lycantrope (阿宽)   2023-12-08 23:36:00
那就是xml unicode的写法啊
楼主: kino818 (好多梦 层层叠叠又斑驳)   2023-12-09 11:06:00
谢谢1F大大的指教已解决问题,str.encode('utf-8')可将来源编码成xml unicode编码,例如&#x9999;,再多接.decoce('utf-8')可让笔记本看到中文字

Links booklink

Contact Us: admin [ a t ] ucptt.com