PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Web_Design
[问题] 网页爬虫
楼主:
aaa7513231
(浑沌与秩序)
2016-05-03 22:02:36
大家好,最近遇到一个很困扰的问题
一般爬虫爬静态网页没什么问题
某些动态网页我也可以去观察他的Post或是get去截他资料
但我现在遇到一种网页是ajax data 绑进tab元件内
data部分有加密
他的tab内容需要点击去动态产生内容
跟bootstrap的tap相同
http://www.w3schools.com/bootstrap/bootstrap_ref_js_tab.asp
像这样的动态网页有建议的爬虫方法嘛
好烦恼阿@@....
看来看去就是找不到方法破解
谢谢大家
作者: bbgba1923 (Hardison)
2016-05-03 22:27:00
Watir
楼主:
aaa7513231
(浑沌与秩序)
2016-05-03 22:39:00
我用python+scrapy写的,watir看起来好像用不上@@
作者: lininu (声音控:P)
2016-05-05 13:31:00
.ppt.cc/S6LY7 JPTT网址推不出去==
作者:
mmis1000
(秋月恋枫)
2016-05-05 18:01:00
因为ppt.cc早就被全站封锁了,你为啥不改用其他好一点的转址?像是 goo.gl 之类的就是 ma19.moe 都比 ppt.cc 好太多
楼主:
aaa7513231
(浑沌与秩序)
2016-05-06 10:45:00
我后来放弃了,去研究他ajax的资料作破解
作者: lininu (声音控:P)
2016-05-07 07:03:00
感谢mmis,我没有注意到这件事~
作者: ayhaadam (跳电跳电跳电)
2016-05-15 23:29:00
可以研究看看 PhantomJS 之前用他来爬过 agoda,他们也有类似的保护机制
继续阅读
[请益] 关于网址的设定
ciao0958
[问题] HTML5画布 IE无法储存图片
iorange610
[问题] javascript 取得变量?
mlev
[讨论] hawkhost / hostgator 比较
imhaha
[请益] [apache] page.php/xx/yy/zz/... 一直爬
Siu
[问题] 关于相簿页面多张图片排版问题 CSS
herbacin
[问题]证券交易行动版网页,为何不能下单?
stupid547547
[问题] sublime text html <font>标签
b9876542002
[问题] 关于网页音乐的问题
Hadamard
[问题] 一样的网址回传不同的结果
sinstar
Links
booklink
Contact Us: admin [ a t ] ucptt.com