[问题] 为何中文字串用UTF-8存盘后变成乱码?

楼主: shala (沙罗)   2019-01-16 14:15:04
我从某网站01页、02页...这样扫出想要的字串,并用UTF-8存为纯文字档
但有某页的中文字串存盘后都变成乱码
乱码类似这种感觉:%#[email protected]
(正确而言不是这样的符号,很多是PTT无法显示的字符)
非中文的字串都正确存盘,所以应该是编码错误
但其他页的执行结果都正确,唯独某页会这样
观察该页原始码还是没发现除了文字内容之外和其他页不一样的地方
有人遇过这种问题吗?
是不是因为遇到什么特殊字符?
作者: jiyu520 (不要鲫鱼我)   2019-01-16 15:42:00
乱码有可能是你检视时的问题;可以附上连结或图吗?
作者: sherees (ShaunTheSheep)   2019-01-16 16:11:00
encoding='utf-8-sig'
作者: s860134 (s860134)   2019-01-16 21:43:00
直接给有问题的页面和你爬的 code,穷举乱枪打鸟很难站内信 或是给个页面原始码...你看一下网页原始码 <meta charset="xxxx" />big5 要用 big5 解,utf8要用 utf8 解把资料喂给 bs 去爬的时候是 bytes,先 decode成 unicode在喂进去

Links booklink

Contact Us: admin [ a t ] ucptt.com