Re: [请益] parser 文字 shadowjohn PTT批踢踢实业坊

Re: [请益] parser 文字

楼主: shadowjohn (转角遇到爱) 2014-09-25 16:52:09

※ 引述《woominin (没事就好)》之铭言：
: 不好意思，小弟刚接触php不久
: 有关于parser的问题想要询问一下
: 比方说，我有一个网页想要parser
: http://house.ilantravel.com.tw/
: 而这个网页最下方有一堆民宿的文字超链结
: 请问我要怎么parser这些超链结的文字部份呢
: 检查了原始码，比方说
: <td>．</td>
: <td>
: <a href="bnb/kite.htm" target="_blank">风筝小木屋民宿</a></td>
: 这是其中一个
: 我要怎么parser出来风筝小木屋民宿这串文字呢 ??
: 我有用 simple_html_dom.php
: $dom = file_get_html('http://house.ilantravel.com.tw/');
: $result = $dom->find('a');
: foreach($result as $v) {echo $v->href . ' ';}
: 这样只能parser出超链结，但无法辨认，哪个链结是谁
: 麻烦前辈解惑，谢谢
<?php
include '/var/www/html/inc/simplehtmldom/simple_html_dom.php';
$dom = file_get_html('http://house.ilantravel.com.tw/');
$result = $dom->find('a');
foreach($result as $v) {
$title = $v->innertext; // 用这个直接抓 <a xxx>这里的内容</a>
echo "(" . $title .")" . $v->href . "\n";
}
(关于我们)aboutus.htm
(宜兰民宿)http://bnb.icsp.com.tw
(宜兰住宿)http://www.goez.tw
(宜兰民宿)http://house.ilantravel.com.tw
(花莲民宿)http://house.netete.com
(台东民宿资讯网)http://www.ttbnb.com.tw
(宜兰民宿 )http://www.ilanbnb.tw
(花莲民宿)http://www.bnb.idv.tw
(宜兰民宿)http://www.ilanbnb.com.tw
(台东民宿)http://www.travel123.com.tw
(宜兰美食)http://www.399.com.tw
(礁溪温泉)http://jiaoxi.ilantravel.tw
(罗东夜市 )http://luodong.ilantravel.tw
(宜兰包栋民宿 )http://www.goyilan.com
(童玩节)http://child.ilantravel.com.tw/
(宜兰生活)http://life.goez.tw/
(罗东住宿)http://lotong.yilanminsu.com.tw/
大概会长这样吧~

楼主: shadowjohn (转角遇到爱) 2014-09-25 16:53:00

可以加上 strip_tags、str_replace 去掉多余的东西http://simplehtmldom.sourceforge.net/Quick start 就有教学了，很简单~

作者: powyo (光子郎) 2014-09-25 16:58:00

他那里面有很多不需要的连结这样会全部抓到吧

楼主: shadowjohn (转角遇到爱) 2014-09-25 17:02:00

这时搭配 is_string_like 就解决了~_~simplehtmldom 就是设计的像jquery好选，然后再分

继续阅读

[请益] parser 文字woominin Re: [请益] 表PHP连结MYSQL 可以帮我看哪里错误吗 ?powyo Re: [请益] php 外部网页代理登入(补充说明)KawasumiMai Re: [请益] 无法写入mysql数据库SKL Re: [请益] 无法写入mysql数据库tkdmaf [请益] 无法写入mysql数据库dummytrue Re: [请益] 同一程式中，有些指令会跑，有些不chlorine [请益] 父类别和子类别z0furu [请益] 同一程式中，有些指令会跑，有些不chlorine Re: [请益] php if的判断cf1064