Re: [请益] 首页抓取论坛文章，对BBCode的清除。 godspeedlee PTT批踢踢实业坊

Re: [请益] 首页抓取论坛文章，对BBCode的清除。

楼主: godspeedlee (妳，我可以) 2011-02-17 22:54:50

※ 引述《LPH66 (-858993460)》之铭言：
: ※ 引述《aiyswu (绝望客)》之铭言：
: : 各位你们好！
: : 我现在使用的是 phpBB 3.0.8论坛。我的问题是，我有自己特制一个首页，将论坛
: : 的文章捞到前页来；然而，某些文章需要清除BBCode是一个困扰我的问题。
: : BBcode的格式为
: : [url:uid]urlstr[/url:uid]
: : [imgs=num:uid]urlstr[/imgs:uid]
: : [url=urlstr:uid][img:uid]urlstr[/img:uid][/url:uid]
: : 等等..
: : uid为8位英数混合字串
: : 我的作法是
: : $str = preg_replace( '@\[.*?\](.*?)\[\/.*?\]@sm', "$1" ,$bbcodestr );
: : 仍然会漏掉一些BBcode清不掉。
: 你这样等于是把 [ ] 和 [/ ] 一起清
: 那如果是单一个的 [ ] 而没有 [/ ] 的就会清不掉
: : 一位前辈帮我改写了regex
: : $regex = '|[[\/\!]*?[^\[\]]*?]|si';
: | |si
: [[\/\!]*? [ 或 / 或 ! 有0或多个, 不 greedy
: [^\[\]]*? 非 [ 也非 ] 有0或多个, 不 greedy
: ] ]
: 也就是说逻辑是先抓 [ / ! 的一串再抓不是 [ ] 的一串再抓 ]
: 等于是把开始和结束标签一视同仁来抓...
: (不过既然都这样写了那个 ungreedy 的 ? 应该也可以不用才对)
: 话说回来我觉得你的前辈的意思应该是
: $regex = '|\[[\/\!]*?[^\[\]]*?]|si';
: 这样前面的意思就变成了抓一个 [ 再抓 / ! 的一串 (下略)
: 这样好像比较对....
: : $String = preg_replace($regex, '', $String);
: : 一下就清掉了............
: : 不过我看了很久，却完全看不懂为什么它是这样写？
: : 想请问一下，有没有人可以指点迷津一下呢...
补充一下，*? 也称为 lazy(Regex 圣经 MRE 认为 lazy 效率
不佳尽量少用)
原 po 用 \[.*?\] 还有一个问题是'[]'这样的字串
也会中奖，可是这可能是错的 BBCode，个人建议设计 regex 还是参照
BBCode 的语法设计的精准一点比较好，下面提供另一个范本
(参照原 po 提供的 BBCode)
\[\/?+\w++(=\w++)?+:\w++\]

作者: aiyswu (三千绝望客) 2011-02-21 17:21:00

好的! 谢谢!!

继续阅读

[问题] 无字串也通过认证kalecgos0616 Re: [请益] 首页抓取论坛文章，对BBCode的清除。LPH66 [请益] 首页抓取论坛文章，对BBCode的清除。aiyswu [问题] 奇怪的匹配问题(html)j87b0003 Re: [问题] 怎么找第一个匹配的外括号内容CindyLinz [问题] 怎么找第一个匹配的外括号内容unlearn [问题] 想抓括号内的东西caty1010 Re: [请问] 许多文字档只抓其中一行?windincloud [问题] 我想把 / 取代成 \/ 一直有问题!!!?no1kk [问题] geturl的REGEXPtn801534