[问题] 抓网页的几个小问题

楼主: kyo0010 (~KYO~)   2014-11-25 21:47:06
WebClient wc = new WebClient();
wc.Encoding = Encoding.UTF8;
string result = wc.DownloadString(htmlStr);
textBox1.Text = result;
很简单的几句而已 想把网页的资料抓下来
成功把HTML抓下来了 想解析的时候发现抓下来的HTML有些DIV 里的TR 跟 TD 都不见了
只看的到
<div id="m"><div id="table01">
(消失的TR跟TD)
</div> <br></div>
可是要的值都在消失的TD里面
想了整天不知道怎么解....
想求大大们提点一下小弟
作者: Peruheru (还在想)   2014-11-26 08:32:00
你要说的是table吧?div底下怎么会直接放tr和td?另外回回归问题,我猜那是因为那些资料是js产生的你抓的资料大概是网页刚产生的状态,所以没有动态内容我是不太清楚纯靠c#自己刻要怎么做...我的话只会想到靠其他东西来完成,如phantomjs之类的
作者: a926 (Aaron)   2014-11-26 10:09:00
你可能要在找一下,我猜你要的内容是Ajax做出来的找他call的回传资料的网址
作者: Litfal (Litfal)   2014-11-28 15:50:00
开浏览器监视一下HTTP活动,应该蛮容易找到问题点的

Links booklink

Contact Us: admin [ a t ] ucptt.com