大家早安
我是个爬虫新手...
我现在想要抓水库的每日资料
抓到一半 就卡住了...
下面是我的code
# -*- coding: utf-8 -*-
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import Select
from selenium.webdriver.chrome.options import Options
import _uniout
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
driver=webdriver.Firefox()
url='http://fhy.wra.gov.tw/ReservoirPage_2011/StorageCapacity.aspx'
driver.get(url)
sel = Select(driver.find_element_by_id('ctl00_cphMain_cboSearch'))
sel.select_by_index(2)
data=pd.read_html(url)
print data
有两个问题
1. 我现在执行之后 会印出一串的乱码...
https://i.imgur.com/gsXnlWz.png
我上网找过解决方式 也在一开始用了
# -*- coding: utf-8 -*-
还是乱码 避免政府网站用的是big5之类的
也用chardet试过
>>> import urllib
>>>
data=urllib.urlopen('http://fhy.wra.gov.tw/ReservoirPage_2011/StorageCapacity.aspx').read()
>>> import chardet
>>> chardet.detect(data)
{'confidence': 0.99, 'language': '', 'encoding': 'utf-8'}
所以确定是utf-8
结果还是乱码..那我该处理阿...?
2.我现在想要抓2018年5月20日的“水库及拦河堰”的资料
可是我现在已经利用selenium下去将下拉式选单改成第三项
可是最后读取之后还是读取到第一项
请问我在data=pd.read_html(url) 该放什么?
麻烦各位大大了...