[问题] Selenium与BeautifulSoup有什么不同? peace9527 PTT批踢踢实业坊

[问题] Selenium与BeautifulSoup有什么不同?

楼主: peace9527 (谢谢你9527) 2016-02-15 18:04:39

各位前辈大家好
目前正在学习python来当网络爬虫
之前用BS成功抓取table的资料
也知道BS的强大
后来发现BS还是有他的瓶颈
因为他不是浏览器他无法帮我们选取按钮或触发AJAX
后来爬文后发现selenium好像可以实现这些行为
透过触发后就可以获得BS原本无法得到的资讯
例如要onclick后才会出现的网址或按钮
我只要用selenium去触发onclick 就可以获得网址
然后再用BS去分析这个网址
看起来我自己好像已经讲完了
但其实我不是很肯定我的理解对不对
希望各位大神能帮我解答看看是否正确
如果方便的话也麻烦大家提醒我我的理解还有哪些不足
感谢大家!

作者: Thisisnotptt (这不是PTT) 2016-02-15 19:25:00

bs只是用来处理你抓下来的网页文字档，所以selenium跟bs应该是不冲突的

作者: MOONY135 (谈无欲) 2016-02-15 21:59:00

不冲突要做动作的话request好像也可以

作者: xlk (深深) 2016-02-16 00:57:00

一般用selenium+css/xpath selector抓element text, 除非需要复杂互动再考虑混用。高效应该还是BS only抓已知网址内容。request data/url/selector当然就靠browser developer tool功能找出来

作者: blc (Anemos) 2016-02-16 14:08:00

叫做 Headless browser 的样子。

作者: xlk (深深) 2016-03-05 22:32:00

selenium可以用phantomjs的ghostdriver是headless的…前面说的不太对.selenium适合需要复杂互动时用一般BS就够

继续阅读

[问题] 不知道是哪边出了问题求救jackhzt [问题] matplotlib图片存盘如何保留座标轴cosmoSJ [资讯] <每周四>Django实况学习3stupidgod08 [问题] 关于override的继承问题octantis [问题] python的二维list用法...peace9527 [问题] 用repr读取Binaryjosefy Re: [问题] unicode里有str资料该怎么转？blc [问题] 良好的python编码习惯peace9527 Re: [问题] 英文实在看不懂，能不能请各位帮忙解释？stupidgod08 Re: [问题] 询问list如行相加ZolaEmile