[问题] 请问爬虫 bs4的撷取方法? neiltsang PTT批踢踢实业坊

[问题] 请问爬虫 bs4的撷取方法?

楼主: neiltsang (CatLulu) 2020-06-29 21:38:52

如题目
用原始码会是一片这样
logged_user = false;
var static_id_cdn = 2;
var html5player = new HTML5Player('html5video', '25522515');
if (html5player) {
html5player.setVideoTitle(');
html5player.setSponsors([{}]);
html5player.setVideoUrlLoW...........
其实还满整齐的
我所要的网址都摆在了html5player.setVideoUrlLow里面
使用bs4是好选择吗?该如何操作?

作者: mychiux413 (小邱) 2020-06-30 00:03:00

bs4不能解析js，如果re能抓出来就re吧，下策就selenium

作者: alvinlin (林矜业) 2020-06-30 01:36:00

嗯。通常是去看js完后它把资料丢哪去了。然后去抓那个结果建议可以po个网址来看看省时间

作者: aidansky0989 (alta) 2020-07-01 08:25:00

请问碰到html会先用xpath还是bs4？两个不太会选

作者: alvinlin (林矜业) 2020-07-01 13:26:00

bs4有css也有xpath.如果用parsel(scrapy)只有xpath.所以bs4有个参数有html.parser/lxml/html5lib但只是速度不同或你也可以用html.parser模组的HTMLParser类自己刻一个或用html2text模组不parse自己去找内容所以bs4和xpath不是对比的选择.而是xpath是bs4的选项之1bs4不能解析js是因为js需要浏览器才能跑(除非是node.js)

作者: OrzOGC (洞八达人.拖哨天王) 2020-07-01 15:01:00

我都爬出来找,xpath直接放弃...XD

作者: aidansky0989 (alta) 2020-07-01 15:20:00

感谢大大解答

作者: alvinlin (林矜业) 2020-07-06 23:24:00

^^如果还是说明不清楚可以说通常是css和xpath混用吧看哪一个可以达到目标

继续阅读

[问题] 两个表格合并MAGICXX Re: [问题] 影像辨识追踪MasterChang [问题] 爬虫新手座标图抓资料(解决)joeyen0546 [问题] 爬虫下载影片愈到权限问题neiltsang [问题] dataframe使用replace的疑问jasonhsu14 [问题] 有小数点的数字关键字ayaniji [问题] 菜鸡问题求助FrockYu [问题] 请问 astype 指令内 copy 的意思happy95oya Re: 请问如何计算回归方程式refusekkk Re: 请问如何计算回归方程式mychiux413