Re: [问题] 用requests.post爬虫 以及编码的问题

楼主: iPhone007 (iPhone007)   2016-07-02 00:18:55
用以下的方法硬解,虽然方法不是很好,不过似乎是可以解出资料
看是不是能抛砖引玉,请其他大大提出好的解法
input_year = '105'
input_month = '06'
import requests
url='http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php'
payload = {
'myear':input_year,
'mmon':input_month
}
res = requests.post(url, data = payload)
from bs4 import BeautifulSoup
res.encoding = 'big5'
idx_bgn = res.text.index(u"<div align=center class=til_2>")
idx_end = res.text.index(u"<!
作者: akpipnlge (akpipnlge)   2016-07-02 06:38:00
因为我只是要取数据而已,只要去tag就好所以beautifulsoup虽然不过,但是其他套件可以一个不求甚解XDDD
作者: s860134 (s860134)   2016-07-02 11:18:00
用 lxml 应该可以很好的爬出 tag 结构
楼主: iPhone007 (iPhone007)   2016-07-02 12:01:00
感谢分享 ^_^

Links booklink

Contact Us: admin [ a t ] ucptt.com