[问题] selenium取网页内容的问题

楼主: kanako (我是香民)   2016-10-20 17:52:05
请问一下如何使用selenium取得浏览器出现画面的完整文字内容?
单纯用webdriver的page_source是不是无法完整取得某些动态网页的内容?
我遇到的问题是浏览器加载页面后page_source跟在浏览器中看到的页面原始码不一样
https://goo.gl/wMi3LO 这是我尝试加载的网页
程式码如下
driver = webdriver.Chrome("driver path")
wait = WebDriverWait(driver, 30);
driver.get(url)
try:
WebDriverWait(driver,
delay).until(EC.presence_of_element_located((By.XPATH,
'//*[@class="content__article-body from-content-api js-article__body"]')))
html = driver.page_source
print "Page is ready!"
except TimeoutException:
print "Loading took too much time!"
把html变量内容存下来却没有我设定等待其出现的网页元件
试过phantomjs也是一样的结果
请问一下应该要怎么做才会取得完整的画面原始码
谢谢
作者: BigBank ( )   2016-10-22 03:11:00
之前用phantomJS可以取得完整内容
作者: sky800507 (B翰)   2016-10-22 13:02:00
我用Firefox得到的page_source中有你要找的class喔可能是你中间程式码的问题?

Links booklink

Contact Us: admin [ a t ] ucptt.com