[问题] selenium爬虫新手问题

楼主: xyz6206a (xyz6206a)   2016-05-05 09:30:38
各位前辈好,
小弟为python爬虫新手,因为对python有点兴趣
接下了系上老师的研究助理撰写网络爬虫
目前在学校想帮老师爬Factiva数据库
但必须利用学校ip再利用学校图书馆连结进去
不过在跳转过程中会不小心蹦出新的页面
而且跳出后网址好像跳了好几次
新手面对这状况让我非常困惑,不知道该如何是好
http://imgur.com/KUECSly
http://imgur.com/42OdNRD
附图为我目前遇到的状况
不知道板上前辈们有没有什么好方法解决?
作者: ripple0129 (perry tsai)   2016-05-05 10:21:00
标题好像跟内容无关,先说好我没写过selenium,不过你要先确定手动连线是正常的吗,感觉上似乎跟自动化无关啊,单纯连线上就有问题吧XD
作者: Kadai (龟)   2016-05-05 13:50:00
直接用request设proxy连进去呢?
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)   2016-05-05 22:05:00
用 requests
楼主: xyz6206a (xyz6206a)   2016-05-06 00:31:00
各位前辈因为我没用过REQUEST是否有推荐的书籍呢?
作者: s860134 (s860134)   2016-05-06 01:38:00
先不谈 request ,你怎不直接到 Factiva 的页面?为何要特意从图书馆的连结进去@@http://i.imgur.com/4uUzdhO.png 复制这个网址把它直接放在你 driver.get('连结网址')我记得 selenium 会直接把转跳完的页面当作你请求的页面
作者: octantis (@.@)   2016-05-06 11:45:00
requests网络上有官方的教学文件
作者: aweimeow (喵喵喵喵 ヽ( ・∀・)ノ)   2016-05-06 16:50:00
楼主: xyz6206a (xyz6206a)   2016-05-10 01:20:00
回S大因为FACTIVA是学校资源,我没法直接从他页面登入@
作者: s860134 (s860134)   2016-05-10 05:43:00
了解 但是图书馆连结到 CGI 让你登入阿,只要是台大IP他CGI应该是以 reader 帐号登入,用 IP 做验证只要你连着台大 VPN 或是直接用学校电脑应该可以直接登

Links booklink

Contact Us: admin [ a t ] ucptt.com