[问题] selenium爬取不了完整页面资讯 swwy1661 PTT批踢踢实业坊

[问题] selenium爬取不了完整页面资讯

楼主: swwy1661 (小玉米) 2019-06-14 17:10:23

各位大大好，小弟是自学爬虫新手，请多多指教！
小弟有2个问题想询问~
第一个问题是，小弟目前在练习爬取视频，
遇到了一个网页，是需要点击拨放，跳到专属的拨放器，才会跳出真实的网页地址
如verystream!
所以小弟就使用selenium进行以下的操作
browser.find_element_by_xpath('//*[@id="btn2"]').send_keys(Keys.ENTER)
time.sleep(10)
page_source = browser.page_source
print(page_source)
browser.quit()
selenium确实转换到VS之拨放器，且网页内容也加载了mp4的url
但抓取page_sourece还是没有获得此地址，希望有大大可以帮忙解、解答
第二个问题，小弟想问，有些网址，不论是用request或selenium都无法获取全部的元素
是什么原因呢?有什么关键字能找到学习这类类似反爬虫相关的文章吗?
以上,拜托大大们帮忙解答或提供思路了,谢谢

作者: bugbug777 (sil) 2019-06-14 23:49:00

我也是有点兴趣不过你要附一下图片还是网页的网址不然看不懂

作者: s860134 (s860134) 2019-06-15 15:23:00

通常页面播放器都是走 JS 你要抓的话可能要捞 network

作者: TakiDog (多奇狗) 2019-06-17 02:15:00

现在看到 hmm 你的verysteam不知道是不是跟我做的一样我做过直到目前还能使用 https://reurl.cc/Qkj5p只是自己在用的命名就:)

楼主: swwy1661 (小玉米) 2019-06-22 19:58:00

谢T大，但无法使用，我的那个网站没办法直接找到真实地址，后来通过selenium点击其他网站，达成找到真实目标，完成爬虫。

继续阅读

[问题] csv写入问题(包含逗号写入同一栏)sshc [分享] 2019 PIXNET 黑客松 (更新资讯)chaos012 [资讯] 6/29-30六日Python网络爬虫课程征团报alienpiga Re: [问题] Python新手 for循环问题safyrose Re: [问题] Python新手 for循环问题jordan0740 Re: [问题] Python新手 for循环问题TuCH [问题] Python新手 for循环问题a172545056 [问题] 回到前面已执行的某一个步骤A601B8 Re: [问题] 抓 google 网页的搜寻回传结果purplvampire [问题] DBSCAN是否可以直接处理时空资料lh1122