Re: [问题] EXCEL抓网络资料

楼主: Linkey (Linkey)   2016-06-26 23:37:55
可以用 QueryTable 指定 PostText 方式取得表格
查询页面网址:
http://structurednotes-announce.tdcc.com.tw/Snoteanc/apps/bas/BAS210.jsp
PostText:
http://imgur.com/p6lq5L8 (使用IE或Chrome的开发者工具可以录下)
已到期PostText:1~127 Pages
AGENT_CODE=&ISSUE_ORG_UUID=&SALE_ORG_UUID=&FUND_LINK_TYPE=&FUND_CURR=&
FUND_TYPE=&FUND_STOP_DATE=1&action=Q&LAST_ORDER_BY=FUND_NAME&
ORDER_BY=FUND_NAME&IS_ASC=1&currentPage=1
未到期PostText:1~36 Pages
AGENT_CODE=&ISSUE_ORG_UUID=&SALE_ORG_UUID=&FUND_LINK_TYPE=&FUND_CURR=&
FUND_TYPE=&FUND_STOP_DATE=2&action=Q&LAST_ORDER_BY=FUND_NAME&
ORDER_BY=FUND_NAME&IS_ASC=1&currentPage=1
观察PostText:
FUND_STOP_DATE=1 or 2 输入至少一查询条件
看到关键currentPage=1,手动点 ">>",可得总页数
用 For 循环 跑从第一页到最后一页
好家在没有卡Cookies或使用者认证
范例:请依自己需求改写,在我的电脑跑已到期127页需要3分钟共6321笔资料
http://pastebin.com/uWccGW8B
因为看到求救文有关键字,才打这么多 ( ̄▽ ̄#)﹏﹏
没关键字的就只有Refer丢网址
※ 引述《Super16666 (SuperJJ)》之铭言:
: 软件:EXCLE
: 版本:2010
: 想问怎样抓下面的资料,我是在TDCC境外平台
: http://structurednotes-announce.tdcc.com.tw/Snoteanc/
: 因为论文需要,想要一口气抓下方所有的资料(如下图),可是这个真的太多了...
: http://i.imgur.com/YAdT3ng.png
: 进去网站之后,点左侧"商品总览"
: 我想要一口气把所有"发行人/总代理人"下方的表格都下载下来
: http://i.imgur.com/c1M7BaTg.png
: 可是有两个困难点
: 1. 第一个就是从EXCEL的时候,如果我直接COPY网址,他只会连到这个首页...
: 这样子就不能直接抓表格...
: 2. 就是他的页码接口很不友善,只能一页一页点,也要点到最后一页才知道总共有几页
: 而且假设你要到第十页只能一页一页点...
: http://i.imgur.com/TmhefhZ.png
: 想问问看有没有大神可以一口气下载全部资料...
: 救救小妹我的论文QQ
: 还是这种python可以解决QQ??
作者: soyoso (我是耀宗)   2016-06-27 03:49:00
那我也将回复原po使用createobject("internetexplorer.application")的部分补齐 https://goo.gl/L0U1qu

Links booklink

Contact Us: admin [ a t ] ucptt.com