各位前辈好,小弟不才
最近自学python一个多月了
目前是玩爬虫居多
因为最近爬到一个网域
分页的格式都没有规律
所以把文字汇入到list中
然后在撷取关键字
但因为index是必须完全符合才能抓到
我的问题是
比如我要抓 (费用)NT5,000
但我已经尽力筛选tag
清单输出会像是
[‘XXXX’, ‘这门课(费用)NT5,000 目前优惠’, ‘AAAA’, .......]
我应该如何撷取
谢谢前辈学长姐指教
———————我是补充——————
本身非什么资讯相关科系,
所以也是第一次自学语言
想说用爬虫来帮我找课程(也顺便练习python),说不定有机会可以去上上
就刚好看的这个网站
http://ewda.tw/
中华民国职工福利发展协会
http://ewda.tw/modules/ewda_action/action.php?asn=3978
http://ewda.tw/modules/ewda_action/action.php?asn=3999
像这类型的分页
不同分页下抓费用没问题
但是抓老师姓名就一直找不到共通解
目前是使用papple大提示的join()
再用位移值来抓字
暂时解决“能一次套用在不同分页”撷取老师姓名
但假设老师姓名如果是两个字或四个字
位移值就会失效
这样是不是就只能使用re来判别呢
注:目前只会使用BS来解析,没有要伸手要code,因为这样我也不会进步,所以算是请教
一些提示,毕竟有时候google也不知道使用什么关键字...
先谢谢各位热心的前辈