[问题] 爬虫正规表达式的效能 vi000246 PTT批踢踢实业坊

[问题] 爬虫正规表达式的效能

楼主: vi000246 (Vi) 2016-10-19 09:55:18

我写了一支爬虫用来爬A网址
要从A网址回传的HTML里滤出图床网址
程式要从图床网址来取得大图
每个图床取大图的逻辑都不一样
我目前写的逻辑如下
1.先取得A网址的HTML
2.过滤不要的区块因为图床网址出现的地方不固定
我没辨法先滤出

的连结再判断图床
3.为各网址写REGEX过滤出网址再执行各自的取大图逻辑
REGEX语法如下
(?<url>https?://
[\d\w_.]*
(?:imgdream|imgblank|img.yt|dimtus|imgstudio|damimage|imgseed|55888|imageteam|imagedecode|hentai|tinypic|pics.dmm)
(?:[\d\w-_./]*)[\d\w-_.]*.jpe?g)
(?<url>https?://[\d\w-_.]*(?:imgchili)(?:[\d\w-_./]*)[\d\w-_.]*.jpe?g)
(?<url>https?://1dl.biz(?:[\d\w-_./\?]*)[\d\w-_.]*)
我觉得这样做效率满低的
一个页面要重复判断好几次
想问有没有辨法一次判断是属于哪个图床
再执行各自取大图逻辑?
我怕写在一起 REGEX会越写越长很不好维护

作者: pttworld (批踢踢世界) 2016-10-19 13:57:00

一次建立html的tag组对，非图的也有其他处理需要使用。

楼主: vi000246 (Vi) 2016-10-19 14:05:00

我目前是把会出现网址的DIV区块滤出来判断有没有网址再一个一个判断网址的HOST

作者: pttworld (批踢踢世界) 2016-10-19 17:38:00

可能需要逻辑性的语言在循环内判断才能满足需求。可以过就好，需求是让程式设计师视觉感觉一次判断。

继续阅读

[问题] ArrayList的层数问题iphone5566s 售JAVA考试卷两张ada76145 [问题] 请教64位元的JVM如何呼叫32位元的注册服eric123 [问题] 新手提问有关河内塔的递回理解ciakkk040156 [工具] 产生PDF的oper source工具？embman [出售]售JAVA考试券(台北巨匠购入)已售出youngwe0803 [问题] ethereumj sync threadpttuserboy [征才] (Epson)捷修网征JAVA程式开发工程师hrWendy [出售]售Java考试卷m89915774 Re: [问题] autowired问题一问qrtt1

Contact Us: admin [ a t ] ucptt.com