Re: [讨论] 资料撷取程式发想

楼主: Spanner (孝任)   2014-05-14 15:16:47
※ 引述《StupidGaGa (笨嘎嘎)》之铭言:
: 分析或拆网页的话,也有几个方法,
: 01. Json、Xxml
: 02. Html Agility Pack
: 03. string
: 01的话,直接反序列化就好,最快,
: 02的话,稍微学一下,蛮简单的。
: 03的话,通常会用string.IndexOf或string.Split
我自己是用XDocument,首先撷取回来的码先用HtmlAgilityPack转成标准xml
用XDocument直接下语法去查(撷取物件)
例如 找出原始码中table元素 id=table4的 所有资料
XElement table = (from t in xdoc.Descendants("table")
where t.Attribute("id") != null
&& t.Attribute("id").Value == "table4"
select t).Single();
//撷取每个row
List<XElement> trList = table.Descendants("tr").ToList();
//first row is headers
for (int i = 1; i < trList.Count; i++)
{
//crawl each cell data.
.....略
.....略
}

Links booklink

Contact Us: admin [ a t ] ucptt.com