[问题] python爬虫，设定driver很慢 bckkt PTT批踢踢实业坊

[问题] python爬虫，设定driver很慢

楼主: bckkt (bckkt) 2018-02-22 16:39:35

原本使用requests.get抓网页原始码，但是抓不完整
后来使用PhantomJS花了7~8秒抓到了完整的原始码
不过弹出
Selenium support for PhantomJS has been deprecated, please use headless
所以最后用chrome并使用headless模式
1 from selenium import webdriver
2 from selenium.webdriver.chrome.options import Options
3 chrome_options = Options()
4 chrome_options.add_argument('

作者: s860134 (s860134) 2018-02-23 18:59:00

自己发 ajax 不合你的需要吗

楼主: bckkt (bckkt) 2018-02-23 19:25:00

后来发现用第一个方法速度上就是硬伤研究才发现一直弹出的页面是Ajax请求所以想说从这条切入研究,但也没那么简单,还在研究中就是了

作者: s860134 (s860134) 2018-02-24 18:22:00

但是你都知道是要多个时间参数，你自己生当钱时间就好了?

作者: Kazimir (Kazimir) 2018-02-24 18:34:00

你用 time.time()的那个毫秒数拿去post可以吗？

楼主: bckkt (bckkt) 2018-02-24 21:41:00

谢谢回应，我没试过但觉得不行，我生的时间跟他生的时间应该是不一样的时间form data还有个变量gidGroup，这变量也是变动很大的今天改用按键精灵去抓json，想说丢到某处之后，再分解json分解好的资料，再看是要丢到EXCEL，还是怎样呈现的，再看看

作者: Kazimir (Kazimir) 2018-02-24 21:59:00

不是我有去试JS那个func 是1970到现在的毫秒数所以python这个产出来应该是一样的东西才对

楼主: bckkt (bckkt) 2018-02-24 22:02:00

我试试加上header来请求，网页是空白我来研究一下form data的gidGroup是怎么产生的好了下次连form data一起丢直接复制最近一个gidGroup，连着其他data一起丢，出现了!!但不知道gidGroup怎么产生的,等这个变量搞懂,就可以爬了我发现不用丢gidGroup，json也会出现耶，太神奇了谢谢你们提醒我试试直接取得时间直接post

作者: galeondx 2018-03-06 04:40:00

https://tinyurl.com/yadsk3lo

继续阅读

[问题] pandas爬虫被挡下来pig98520 [问题] firebase 的 error handlearchon [问题] pandas块状(?)的运算goldflower [问题] readline() 资料中遇到"\n"FamilyMart [问题] 处理Lotus Notes mail archives (*.nsf)ctr1 Re: [问题] sorting cmp_to_keysuhang [教学] 分享自己的 github 以及 youtube 教学TWTRubiks Re: [问题] sorting cmp_to_keyuranusjr [问题] sorting cmp_to_keysuhang [问题] 如何在jupyter中跑大型专案?wallrose