[请益] crawler and API? njpp PTT批踢踢实业坊

[请益] crawler and API?

楼主: njpp (正妹真难找) 2014-06-26 17:49:58

想问下各位前辈
目前要开发撷取网页的技术
一个是有API 直接让C#去读取XML资料
一个是不提供 API 直接用crawler方式去抓
但是crawler方式似乎无法跟读取 XML节点一样
有效整理我所要的撷取内容
crawler似乎只能传一堆网站资料进来
但我如何用crawler技术有效撷取我所要的资讯
谢谢!

作者: pig22022 (宏) 2014-06-26 17:57:00

Crawler应该可以照你想要抓的tag来捞资料只是捞回来自己要再parse

作者: StupidGaGa (笨嘎嘎) 2014-06-26 18:00:00

你这问题应该要在C#板上问我可以给你一个关键字，Html Agility Pack我自己也开发过爬虫专案，这东西不错用

作者: wakaw (哇靠) 2014-06-26 19:36:00

推HAP

作者: kiii210 (HelloWorld!) 2014-06-26 20:35:00

xpath..regular expression都可以啊

作者: StupidGaGa (笨嘎嘎) 2014-06-27 02:28:00

楼上，你别闹了，正规表示法根本不好用。xpath…请问你是用什么东西搭配xpath？

作者: up9cloud (九天) 2014-06-27 03:57:00

推kiii210的regex,至于楼上.如果njpp是限定c#抓XML资料那你说的很对，但若不是。我只能ㄏㄏ了...

作者: leeheng (LHMa) 2014-06-27 09:28:00

正规表示法不好用？可是你用的parser跟compiler都是用正规表示法再爬抓回来的网页和你的程式耶

作者: chatnoir (对不起) 2014-06-27 12:10:00

正规表示法不好用....

作者: StupidGaGa (笨嘎嘎) 2014-06-27 16:03:00

请用HAP，用正规表示法的我只能说，根本自爽我用过单纯字串处理、正规表事法、HAP，相信我HAP第三方的dll真的好用太多了，尤其是解析网页而且HAP也是用xpath去解析，不仅灵活度高，易读性也高PTT C#版人多，不过大多都学生，有时候业界人的话会无法认同如果楼主无法决定用哪个，你就两个都用，你就知道差异另外C#抓XML没人再用HAP也没用正规，是用class去转up9cloud真的写过C#吗？我很怀疑你的经验

作者: gary62107 (Felix) 2014-06-28 01:41:00

两个都用过，正规表示式学习曲线高，但弹性 powerfullHAP方便，但过于依赖也不太好...

作者: iceonly (只有冰) 2014-06-28 15:36:00

顺便问问有没有java的，然后完美解决ajax的htmlunit不稳定

作者: coronach (...) 2014-06-28 22:42:00

要完美解决ajax要做的事太多了 htmlunit已经不错了...

作者: HYL (@EVERYWHERE) 2014-06-28 23:47:00

Google花了 15 年才解决 AJAX 的问题，这问题不好解阿～

继续阅读

[请益] 该如何切入软件产业?kage01 Re: [请益] 小弟目前非资工系大三，未来方向请益StupidGaGa [征才] 海外工作机会，诚征PHP/iOS/android程式peric053 [心得] iOS 面试心得 Pchome,CSI,FlyFit....Boska Re: [请益] 小弟目前非资工系大三，未来方向请益SirChen [URL] 华山论剑 - 程式，架构，开发论坛。qrtt1 Fw: [请益] 台湾yahoo工程师的薪水Angil [请益] 写财经相关软件的工作bubba [请益] Offer选择marquee801 [征才] 长期工读生 (协助软件开发)LoveCl