有关Selenium抓取网页资料变乱码问题请教:
最近想写一个抓取国旅卡所有店家资料
从官方网站http://travel.nccc.com.tw用Selenium及BS4抓取页面资料
一开始先在Windows下编写测试,可以正常抓取到资料显示也正常
就把程式丢到Linux的机器执行
跑出来店家资料print出来却显示乱码
程式执行画面如下:
windows下执行显示正常
https://i.imgur.com/oMu41oF.jpg
Linux下执行print变乱码
https://imgur.com/kqiFtDR.jpg
看起来像是编码问题(utf8 big5?)
查看Google后 试着用加上encode=big5 及encode=utf8
结果显示的结果还是一样乱码无法正常秀出中文内容
尝试用BS4把页面整个抓取下来后写到档案
结果档案内容: 前面网页讯息中文正常, 后面店家资讯就显示乱码
画面如下:
前面网页讯息: https://imgur.com/c3ruZC5.jpg
后面店家资讯: https://i.imgur.com/IkP8GuW.jpg
想请教是否有版友遇过类似问题,想请教应如何解决此类问题
感谢指点~