Re: [问题] 爬取网站的excel档案 jn8029 PTT批踢踢实业坊

Re: [问题] 爬取网站的excel档案

楼主: jn8029 (宅男8029) 2019-04-03 07:19:42

※ 引述《yshihyu (yshihyu)》之铭言：
: https://gist.github.com/shihyu/cafbf8feeb1dbb821084504fcd2c544b // 目前程式码
: 我想爬取 http://mopsfin.twse.com.tw/ 网站的excel 文件
: 目前是从 requests.post 出来结果不是chrome分析的那个页面
: 想请问一下可能原因是？
: 我看chrome 分析会有 jsessionid ? 是要产生这个才可以嘛？
: Request URL:
: http://mopsfin.twse.com.tw/compare/data;jsessionid=948EF4B129CCA4E8F4FA1A8991AC72F8
: 还有我看点选excel 下载好像是javascript 功能有办法透过直接下载嘛？
: 还是说javascript 必须要用 selenium？
: 谢谢
刚试了一下可以直接下载
jsessionid你可以先get首页之后抓
他藏这
<link rel="icon" type="image/png" href="/resources/images/favicon-32x32.png;
jsessionid=F353143C92325BE0902E08030FE14F71" sizes="32x32">
然后下载excel的url是/export/data 不是compare/data
你可以用chrome的developer tool看一下你按下载excel之后他的payload有啥
把payload放对 url放/export/data 然后jsessionid放进去
就可以了不用selenium

继续阅读

[问题] 爬取网站的excel档案yshihyu [问题] 取得计算影片或mp3的音量大小ptoyhawinf [问题] 控制小数点p2p8ppp [问题] 乘除顺序互换答案不同@@ASSA [问题] 新手学爬虫(#的问题)j884232001 [心得] 分享论文阅读小帮手-smartcopy自动段落调整jiyu520 [问题] for中的[:]影响kagari [问题] meshgrid memory error 做smooth?tsopk45168 [问题] LSTM+AR(2) model的问题yarfa [问题] pycocotools 安装问题Billeve