[问题] robots.txt处理 walelile PTT批踢踢实业坊

[问题] robots.txt处理

楼主: walelile (wakaka) 2014-10-20 12:30:01

在robots.txt中，会有许多Disallow或Allow path的设定
e.g.
Disallow: /dir/myfile.html
Allow: /dir/
(在/dir/目录下只允许存取/dir/myfile.html)
我现在处理robots.txt的方式是逐条将Disallow或Allow的设定转成regex,
并分别存在Disallow与Allow的array中。
每次有URL需要进行处理时，先逐条比对Disallow中的regex然后在比对Allow中的regex
想请问是否有其他比较妥当的处理方式？
我目前看到规定最多的是维基百科的robots.txt, 约有700条设定
还不确定这对fetch url效能上的影响有多大...
谢谢指教

继续阅读

[问题] 关于多执行绪疑问tas72732002 Re: [问题] Golang iterate callbackhSATAC Re: [问题]用递回写一个PowerSet,求解释yauhh [问题] VC++写UI美化(贴图),有没有专门的书??newidl23 [问题]用递回写一个PowerSet,求解释billy20510 [问题] 双向伫列zxcv12 Re: [问题] 请问图形化接口建议始用哪种语言?s0310388 [问题] 在BCB6.0使用ChartDirector的DLLDIE755127 Re: [问题] Golang iterate callbackyauhh Re: [问题] 请问图形化接口建议始用哪种语言?bjiyxo