[问题] python 爬虫遇到big5扩充字乱码 pig98520 PTT批踢踢实业坊

[问题] python 爬虫遇到big5扩充字乱码

楼主: pig98520 (CheinFeng) 2018-11-26 12:54:45

大家好,又上来打扰了,最近在爬虫的时候遇到这个词:
"宏碁电脑",发现爬下来时候会变成乱码,

经爬文查询后发现这样的问题：
https://blog.hoamon.info/2008/05/python-big5.html
不过该解法似乎不能应用在python3.7
想问一下有没有类似的情况该怎么解＠＠？
补上网站：
https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html
程式码：
import requests
from bs4 import BeautifulSoup
url='https://tw.stock.yahoo.com/news/%E5%A4%96%E8%B3%87-%E8%B3%A3%E8%B6%85%E8%82%A1-%E5%AE%8F-%E7%A2%81-%E9%B4%BB-234706227.html'
req=requests.get(url)
bs=BeautifulSoup(req.text,'html.parser')
print(bs.find('h1').text)

作者: acer1832a (Mike) 2018-11-26 13:20:00

请问是爬哪个网页，没有网页没办法帮你看是不是网页编码转换上的问题，能提供程式码更好

作者: TakiDog (多奇狗) 2018-11-26 13:22:00

有big5哦，requests有encoding的参数

作者: ckc1ark (伪物) 2018-11-26 13:39:00

req=requests.get(url)后加一行req.encoding = 'cp950'

楼主: pig98520 (CheinFeng) 2018-11-26 14:55:00

可以了～不过请问为何不能用big5?

作者: ckc1ark (伪物) 2018-11-26 15:21:00

你贴的文章有提有7个扩充字是big5没有的

楼主: pig98520 (CheinFeng) 2018-11-26 17:05:00

了解但是用utf-8又会乱码＠＠所以也不能用utf-8囉

作者: eight0 (æ¬¸XD) 2018-11-26 19:35:00

用哪个 encoding 编码，就用哪个 encoding 解码

作者: justoncetime (台北丛林好冷~) 2018-11-26 20:08:00

你可以去g一下CP950和Big5的关系啊

楼主: pig98520 (CheinFeng) 2018-11-27 10:27:00

了解了～谢谢解惑

继续阅读

[问题] pycharm 编写问题juust [问题] tensorflow的activation function问题chinsun [问题] opencv的安装问题ggbast [问题] 打包EXE的icon无法变换 biboSnake [问题] sqlite3与循环应用的问题instar7 [问题](已解决)从github上读取档案ntpuisbest Re: [问题] groupby 找出可能的值benson415 [问题] return里面可以用换行吗？andrew5106 [问题] mac jupyter更换默认路径pig98520 [问题] 如何解决Seanborn和pyplot的图重叠johnmayer1