[请益] 如果我想要手动抓下一个网站要如何开始?

楼主: oiolong (龙龙龙)   2017-07-13 10:08:11
请问一下
我想要把一个网站里面的所有资讯拿下来到数据库里面
我要怎么开始呢?
google 过有很多 github 的 source code
但由于是初学者,想要自己造轮子
我的构思大概是这样
1 用 curl 去拿到 sourcecode
2 用 php 去分析内容 (regular expression or xpath or .... ?)
3 存入db
目前卡在2 的选型上面,
想请教版上的大大们
哪种方式比较好呢?
作者: MOONRAKER (㊣牛鹤鳗毛人)   2017-07-13 10:30:00
以2而言,弄一个HTML parser应该比较方便
作者: shadowjohn (转角遇到爱)   2017-07-13 11:04:00
2 有 simplehtmldom、phpquery 可以用,re稍累简单的用getBetween就好了,php manual满多人分享

Links booklink

Contact Us: admin [ a t ] ucptt.com