Re: [问题] 用requests.post爬虫以及编码的问题 iPhone007 PTT批踢踢实业坊

Re: [问题] 用requests.post爬虫以及编码的问题

楼主: iPhone007 (iPhone007) 2016-07-02 00:18:55

用以下的方法硬解，虽然方法不是很好，不过似乎是可以解出资料
看是不是能抛砖引玉，请其他大大提出好的解法
input_year = '105'
input_month = '06'
import requests
url='http://www.twse.com.tw/ch/trading/indices/MI_5MINS_HIST/MI_5MINS_HIST.php'
payload = {
'myear':input_year,
'mmon':input_month
}
res = requests.post(url, data = payload)
from bs4 import BeautifulSoup
res.encoding = 'big5'
idx_bgn = res.text.index(u"<div align=center class=til_2>")
idx_end = res.text.index(u"<!

作者: akpipnlge (akpipnlge) 2016-07-02 06:38:00

因为我只是要取数据而已，只要去tag就好所以beautifulsoup虽然不过，但是其他套件可以一个不求甚解XDDD

作者: s860134 (s860134) 2016-07-02 11:18:00

用　lxml 应该可以很好的爬出 tag 结构

楼主: iPhone007 (iPhone007) 2016-07-02 12:01:00

感谢分享 ^_^

继续阅读

[问题] overloaded?BitTorrent [问题] 透过Selenium/Restful上传图片卡关sulaxd [问题] 又是中文编码的问题ggirls [问题] 用requests.post爬虫以及编码的问题akpipnlge [问题] multi threading 应用josefy [问题] 使用selenium爬虫被侦测为机器人xyz6206a numpy语法chukc [问题] python 2.7.12 cmd 已经停止运作n1216305 [问题] 如何动态产生ModelBlgAtlfans Re: [问题] 新手对Web Server和Web Framework的疑问kenduest

Re: [问题] 用requests.post爬虫 以及编码的问题

Re: [问题] 用requests.post爬虫以及编码的问题