[问题] robots.txt处理

楼主: walelile (wakaka)   2014-10-20 12:30:01
在robots.txt中,会有许多Disallow或Allow path的设定
e.g.
Disallow: /dir/myfile.html
Allow: /dir/
(在/dir/目录下只允许存取/dir/myfile.html)
我现在处理robots.txt的方式是逐条将Disallow或Allow的设定转成regex,
并分别存在Disallow与Allow的array中。
每次有URL需要进行处理时,先逐条比对Disallow中的regex然后在比对Allow中的regex
想请问是否有其他比较妥当的处理方式?
我目前看到规定最多的是维基百科的robots.txt, 约有700条设定
还不确定这对fetch url效能上的影响有多大...
谢谢指教

Links booklink

Contact Us: admin [ a t ] ucptt.com