[问题] selenium取网页内容的问题 kanako PTT批踢踢实业坊

[问题] selenium取网页内容的问题

楼主: kanako (我是香民) 2016-10-20 17:52:05

请问一下如何使用selenium取得浏览器出现画面的完整文字内容？
单纯用webdriver的page_source是不是无法完整取得某些动态网页的内容？
我遇到的问题是浏览器加载页面后page_source跟在浏览器中看到的页面原始码不一样
https://goo.gl/wMi3LO　这是我尝试加载的网页
程式码如下
driver = webdriver.Chrome("driver path")
wait = WebDriverWait(driver, 30);
driver.get(url)
try:
WebDriverWait(driver,
delay).until(EC.presence_of_element_located((By.XPATH,
'//*[@class="content__article-body from-content-api js-article__body"]')))
html = driver.page_source
print "Page is ready!"
except TimeoutException:
print "Loading took too much time!"
把html变量内容存下来却没有我设定等待其出现的网页元件
试过phantomjs也是一样的结果
请问一下应该要怎么做才会取得完整的画面原始码
谢谢

作者: BigBank ( ) 2016-10-22 03:11:00

之前用phantomJS可以取得完整内容

作者: sky800507 (B翰) 2016-10-22 13:02:00

我用Firefox得到的page_source中有你要找的class喔可能是你中间程式码的问题?

继续阅读

[问题] 关于实现 "文字复制" 的问题(ctrl+c)Assing [问题] 爬虫拆写字串问题jackjenny [问题] or 逻辑问题kero961240 [问题] 关于排版缩排跑掉问题herbacin [问题]在不同测试case中共用同一个变量-pytestjacobcan118 套件安装问题dinoptt1993 [问题] 字符编码显示问题？koshi0413 [问题] pyomo 使用相关的ERROR 解决Muhaosic 相关套件安装问题dinoptt1993 [问题] py2exe 和 pyinstaller 都有一样问题os653