[问题] python爬虫,设定driver很慢

楼主: bckkt (bckkt)   2018-02-22 16:39:35
原本使用requests.get抓网页原始码,但是抓不完整
后来使用PhantomJS花了7~8秒抓到了完整的原始码
不过弹出
Selenium support for PhantomJS has been deprecated, please use headless
所以最后用chrome并使用headless模式
1 from selenium import webdriver
2 from selenium.webdriver.chrome.options import Options
3 chrome_options = Options()
4 chrome_options.add_argument('
作者: s860134 (s860134)   2018-02-23 18:59:00
自己发 ajax 不合你的需要吗
楼主: bckkt (bckkt)   2018-02-23 19:25:00
后来发现用第一个方法 速度上就是硬伤研究才发现一直弹出的页面是Ajax请求所以想说从这条切入研究,但也没那么简单,还在研究中就是了
作者: s860134 (s860134)   2018-02-24 18:22:00
但是你都知道是要多个时间参数,你自己生当钱时间就好了?
作者: Kazimir (Kazimir)   2018-02-24 18:34:00
你用 time.time()的那个毫秒数拿去post可以吗?
楼主: bckkt (bckkt)   2018-02-24 21:41:00
谢谢回应,我没试过但觉得不行,我生的时间跟他生的时间应该是不一样的时间form data还有个变量gidGroup,这变量也是变动很大的今天改用按键精灵去抓json,想说丢到某处之后,再分解json分解好的资料,再看是要丢到EXCEL,还是怎样呈现的,再看看
作者: Kazimir (Kazimir)   2018-02-24 21:59:00
不是 我有去试JS那个func 是1970到现在的毫秒数所以python这个产出来应该是一样的东西才对
楼主: bckkt (bckkt)   2018-02-24 22:02:00
我试试加上header来请求,网页是空白我来研究一下form data的gidGroup是怎么产生的好了下次连form data一起丢直接复制最近一个gidGroup,连着其他data一起丢,出现了!!但不知道gidGroup怎么产生的,等这个变量搞懂,就可以爬了我发现不用丢gidGroup,json也会出现耶,太神奇了谢谢你们提醒我试试直接取得时间直接post
作者: galeondx   2018-03-06 04:40:00

Links booklink

Contact Us: admin [ a t ] ucptt.com