[请益] crawler and API?

楼主: njpp (正妹真难找)   2014-06-26 17:49:58
想问下各位前辈
目前要开发撷取网页的技术
一个是有API 直接让C#去读取XML资料
一个是不提供 API 直接用crawler方式 去抓
但是crawler方式 似乎无法跟读取 XML节点一样
有效整理我所要的撷取内容
crawler似乎只能传一堆网站资料进来
但我如何用crawler技术有效撷取我所要的资讯
谢谢!
作者: pig22022 (宏)   2014-06-26 17:57:00
Crawler应该可以照你想要抓的tag来捞资料 只是捞回来自己要再parse
作者: StupidGaGa (笨嘎嘎)   2014-06-26 18:00:00
你这问题应该要在C#板上问我可以给你一个关键字,Html Agility Pack我自己也开发过爬虫专案,这东西不错用
作者: wakaw (哇靠)   2014-06-26 19:36:00
推HAP
作者: kiii210 (HelloWorld!)   2014-06-26 20:35:00
xpath..regular expression都可以啊
作者: StupidGaGa (笨嘎嘎)   2014-06-27 02:28:00
楼上,你别闹了,正规表示法根本不好用。xpath…请问你是用什么东西搭配xpath?
作者: up9cloud (九天)   2014-06-27 03:57:00
推kiii210的regex,至于楼上.如果njpp是限定c#抓XML资料那你说的很对,但若不是。我只能ㄏㄏ了...
作者: leeheng (LHMa)   2014-06-27 09:28:00
正规表示法不好用?可是你用的parser跟compiler都是用正规表示法再爬抓回来的网页和你的程式耶
作者: chatnoir (对不起)   2014-06-27 12:10:00
正规表示法不好用....
作者: StupidGaGa (笨嘎嘎)   2014-06-27 16:03:00
请用HAP,用正规表示法的我只能说,根本自爽我用过单纯字串处理、正规表事法、HAP,相信我HAP第三方的dll真的好用太多了,尤其是解析网页而且HAP也是用xpath去解析,不仅灵活度高,易读性也高PTT C#版人多,不过大多都学生,有时候业界人的话会无法认同如果楼主无法决定用哪个,你就两个都用,你就知道差异另外C#抓XML没人再用HAP也没用正规,是用class去转up9cloud真的写过C#吗?我很怀疑你的经验
作者: gary62107 (Felix)   2014-06-28 01:41:00
两个都用过,正规表示式学习曲线高,但弹性 powerfullHAP方便,但过于依赖也不太好...
作者: iceonly (只有冰)   2014-06-28 15:36:00
顺便问问有没有java的,然后完美解决ajax的htmlunit不稳定
作者: coronach (...)   2014-06-28 22:42:00
要完美解决ajax要做的事太多了 htmlunit已经不错了...
作者: HYL (@EVERYWHERE)   2014-06-28 23:47:00
Google花了 15 年才解决 AJAX 的问题,这问题不好解阿~

Links booklink

Contact Us: admin [ a t ] ucptt.com