[问题] Selenium与BeautifulSoup有什么不同?

楼主: peace9527 (谢谢你9527)   2016-02-15 18:04:39
各位前辈大家好
目前正在学习python来当网络爬虫
之前用BS成功抓取table的资料
也知道BS的强大
后来发现BS还是有他的瓶颈
因为他不是浏览器 他无法帮我们选取按钮或触发AJAX
后来爬文后发现selenium好像可以实现这些行为
透过触发后 就可以获得BS原本无法得到的资讯
例如要onclick后才会出现的网址或按钮
我只要用selenium去触发onclick 就可以获得网址
然后再用BS去分析这个网址
看起来我自己好像已经讲完了
但其实我不是很肯定我的理解对不对
希望各位大神能帮我解答 看看是否正确
如果方便的话 也麻烦大家提醒我 我的理解还有哪些不足
感谢大家!
作者: Thisisnotptt (这不是PTT)   2016-02-15 19:25:00
bs只是用来处理你抓下来的网页文字档,所以selenium跟bs应该是不冲突的
作者: MOONY135 (谈无欲)   2016-02-15 21:59:00
不冲突 要做动作的话request好像也可以
作者: xlk (深深)   2016-02-16 00:57:00
一般用selenium+css/xpath selector抓element text, 除非需要复杂互动再考虑混用。高效应该还是BS only抓已知网址内容。request data/url/selector当然就靠browser developer tool功能找出来
作者: blc (Anemos)   2016-02-16 14:08:00
叫做 Headless browser 的样子。
作者: xlk (深深)   2016-03-05 22:32:00
selenium可以用phantomjs的ghostdriver是headless的…前面说的不太对.selenium适合需要复杂互动时用 一般BS就够

Links booklink

Contact Us: admin [ a t ] ucptt.com