Re: [讨论] 资料撷取程式发想 Spanner PTT批踢踢实业坊

Re: [讨论] 资料撷取程式发想

楼主: Spanner (孝任) 2014-05-14 15:16:47

※ 引述《StupidGaGa (笨嘎嘎)》之铭言：
: 分析或拆网页的话，也有几个方法，
: 01. Json、Xxml
: 02. Html Agility Pack
: 03. string
: 01的话，直接反序列化就好，最快，
: 02的话，稍微学一下，蛮简单的。
: 03的话，通常会用string.IndexOf或string.Split
我自己是用XDocument，首先撷取回来的码先用HtmlAgilityPack转成标准xml
用XDocument直接下语法去查(撷取物件)
例如找出原始码中table元素 id=table4的所有资料
XElement table = (from t in xdoc.Descendants("table")
where t.Attribute("id") != null
&& t.Attribute("id").Value == "table4"
select t).Single();
//撷取每个row
List<XElement> trList = table.Descendants("tr").ToList();
//first row is headers
for (int i = 1; i < trList.Count; i++)
{
//crawl each cell data.
.....略
.....略
}

继续阅读

[征才]国家芯片中心手机/Win/嵌入式软件工程师bebefish [征才]三竹资讯-Android 手机APP研发工程师asoro [征才] PHP程式设计star1231 [征才] 美商PositiveGrid征求iOS/Win/Mac资深工程师kalitbri Re: [讨论] 资料撷取程式发想StupidGaGa Re: [闲聊] 当政府介入打压新创公司TonyQ [请益] 未来工作走向-影像串流相关lisniberck [请益] linux general library interface??lookat1205 Re: [讨论] 资料撷取程式发想VVll [闲聊]open source用越多是越害怕del680202