[问题] Python Selenium抓国旅卡网站资讯乱码

楼主: threeSecGun (三秒槍)   2019-01-27 17:44:51
有关Selenium抓取网页资料变乱码问题请教:
最近想写一个抓取国旅卡所有店家资料
从官方网站http://travel.nccc.com.tw用Selenium及BS4抓取页面资料
一开始先在Windows下编写测试,可以正常抓取到资料显示也正常
就把程式丢到Linux的机器执行
跑出来店家资料print出来却显示乱码
程式执行画面如下:
windows下执行显示正常
https://i.imgur.com/oMu41oF.jpg
Linux下执行print变乱码
https://imgur.com/kqiFtDR.jpg
看起来像是编码问题(utf8 big5?)
查看Google后 试着用加上encode=big5 及encode=utf8
结果显示的结果还是一样乱码无法正常秀出中文内容
尝试用BS4把页面整个抓取下来后写到档案
结果档案内容: 前面网页讯息中文正常, 后面店家资讯就显示乱码
画面如下:
前面网页讯息: https://imgur.com/c3ruZC5.jpg
后面店家资讯: https://i.imgur.com/IkP8GuW.jpg
想请教是否有版友遇过类似问题,想请教应如何解决此类问题
感谢指点~
作者: f496328mm (为什么会流泪)   2019-01-27 19:02:00
看了一下,店名用全角是哪招,低能政府
作者: shala (沙罗)   2019-01-27 19:05:00
我没改编码但正确抓取并存盘。Windows环境。Linux靠其他人测试
楼主: threeSecGun (三秒槍)   2019-01-27 20:07:00
我Windows环境下能正确抓取没问题 但LINUX下就变乱码
作者: justoncetime (台北丛林好冷~)   2019-01-27 20:28:00
应该是console编码的问题,其实Windows也有。
楼主: threeSecGun (三秒槍)   2019-01-27 20:56:00
我在Linux底下直接写入file 也是显示出乱码(如画面)
作者: s860134 (s860134)   2019-01-27 23:11:00
encode decode 的老问题wait 你后面 "变乱码" 根本不是乱码看起来是没抓到你要文本吧 option value.... 这不是乱码.还是有程式码给别人 debug 比较快
楼主: threeSecGun (三秒槍)   2019-01-29 17:15:00
感谢楼上几位版友建议 后来找出解决方式直接在file open加上encoding="utf-8" 即可显示中文

Links booklink

Contact Us: admin [ a t ] ucptt.com