[问题] Python Selenium抓国旅卡网站资讯乱码 threeSecGun PTT批踢踢实业坊

[问题] Python Selenium抓国旅卡网站资讯乱码

楼主: threeSecGun (ä¸‰ç§’æ§) 2019-01-27 17:44:51

有关Selenium抓取网页资料变乱码问题请教:
最近想写一个抓取国旅卡所有店家资料
从官方网站http://travel.nccc.com.tw用Selenium及BS4抓取页面资料
一开始先在Windows下编写测试,可以正常抓取到资料显示也正常
就把程式丢到Linux的机器执行
跑出来店家资料print出来却显示乱码
程式执行画面如下:
windows下执行显示正常
https://i.imgur.com/oMu41oF.jpg
Linux下执行print变乱码

看起来像是编码问题(utf8 big5?)
查看Google后试着用加上encode=big5 及encode=utf8
结果显示的结果还是一样乱码无法正常秀出中文内容
尝试用BS4把页面整个抓取下来后写到档案
结果档案内容: 前面网页讯息中文正常, 后面店家资讯就显示乱码
画面如下:
前面网页讯息:

后面店家资讯: https://i.imgur.com/IkP8GuW.jpg
想请教是否有版友遇过类似问题，想请教应如何解决此类问题
感谢指点~

作者: f496328mm (为什么会流泪) 2019-01-27 19:02:00

看了一下，店名用全角是哪招，低能政府

作者: shala (沙罗) 2019-01-27 19:05:00

我没改编码但正确抓取并存盘。Windows环境。Linux靠其他人测试

楼主: threeSecGun (ä¸‰ç§’æ§) 2019-01-27 20:07:00

我Windows环境下能正确抓取没问题但LINUX下就变乱码

作者: justoncetime (台北丛林好冷~) 2019-01-27 20:28:00

应该是console编码的问题,其实Windows也有。

楼主: threeSecGun (ä¸‰ç§’æ§) 2019-01-27 20:56:00

我在Linux底下直接写入file 也是显示出乱码(如画面)

作者: s860134 (s860134) 2019-01-27 23:11:00

encode decode 的老问题wait 你后面 "变乱码" 根本不是乱码看起来是没抓到你要文本吧 option value.... 这不是乱码.还是有程式码给别人　debug 比较快

楼主: threeSecGun (ä¸‰ç§’æ§) 2019-01-29 17:15:00

感谢楼上几位版友建议后来找出解决方式直接在file open加上encoding="utf-8" 即可显示中文

继续阅读

[问题] 如何避免执行遇错时console视窗闪退？shala [心得] 用selenium爬网页时.click()失效的解法utap2001 [问题] heroku收费方式vi000246 [问题] Python 抓钜亨网台股历史资料日期问题xyz66217 Re: [问题] 用c#当UI，python当后端MasterChang [问题] 用c#当UI，python当后端ponwar87123 [问题] Pycharm 中使用Anaconda的问题metsuan [问题]某资料夹下某特定副档名的档案数计算yimean [问题] 关于Django一些问题firstlovesky [问题] 如何截获关闭CMD的讯号XperiaZ6C