Re: [问题] 爬取网站的excel档案 yshihyu PTT批踢踢实业坊

Re: [问题] 爬取网站的excel档案

楼主: yshihyu (yshihyu) 2019-04-04 15:57:04

※ 引述《jn8029 (鲁)》之铭言：
: ※ 引述《yshihyu (yshihyu)》之铭言：
: : https://gist.github.com/shihyu/cafbf8feeb1dbb821084504fcd2c544b // 目前程
式?
: : 我想爬取 http://mopsfin.twse.com.tw/ 网站的excel 文件
: : 目前是从 requests.post 出来结果不是chrome分析的那个页面
: : 想请问一下可能原因是？
: : 我看chrome 分析会有 jsessionid ? 是要产生这个才可以嘛？
: : Request URL:
: : http://mopsfin.twse.com.tw/compare/data;jsessionid=948EF4B129CCA4E8F4FA1A8
99
: : 还有我看点选excel 下载好像是javascript 功能有办法透过直接下载嘛？
: : 还是说javascript 必须要用 selenium？
: : 谢谢
: 刚试了一下可以直接下载
: jsessionid你可以先get首页之后抓
: 他藏这
: <link rel="icon" type="image/png" href="/resources/images/favicon-32x32.png;
: jsessionid=F353143C92325BE0902E08030FE14F71" sizes="32x32">
: 然后下载excel的url是/export/data 不是compare/data
: 你可以用chrome的developer tool看一下你按下载excel之后他的payload有啥
: 把payload放对 url放/export/data 然后jsessionid放进去
: 就可以了不用selenium
_____________________________________________________________________________
https://gist.github.com/shihyu/9c62fa9637e336537d3f306486d65109
我先用get 取得 jsessionid, 网址最后在串接 jsessionid
url = 'http://mopsfin.twse.com.tw/export/data;jsessionid=' + jsessionid
res = requests.post(url, headers=headers, verify=False, data = payload)
fp = open("test.xlsx", "wb")
fp.write(res.content)
fp.close()
产生的 test.xlsx 无法打开, 请问可能是什么原因？
谢谢

作者: HenryLiKing (HenryLiKing) 2019-04-04 16:05:00

.......

作者: be00148 (ThirtyCentimeter) 2019-04-04 19:02:00

.....

作者: HenryLiKing (HenryLiKing) 2019-04-04 19:39:00

你的问题换了欸刚刚是请问我该怎么继续做(?)

楼主: yshihyu (yshihyu) 2019-04-04 22:42:00

我大概知道原因了, 是我payload 有些key 是多个所以必须把key : ['value1', 'value2'] 改这样

继续阅读

[问题] a+=b VS a = a+b 差异(solved)znmkhxrw [问题] selenium已经装了程式却找不到sooge [问题] 计算迟到的分钟数s82237823 Re: [问题] 爬取网站的excel档案jn8029 [问题] 爬取网站的excel档案yshihyu [问题] 取得计算影片或mp3的音量大小ptoyhawinf [问题] 控制小数点p2p8ppp [问题] 乘除顺序互换答案不同@@ASSA [问题] 新手学爬虫(#的问题)j884232001 [心得] 分享论文阅读小帮手-smartcopy自动段落调整jiyu520