Re: [讨论] 资料撷取程式发想

楼主: VVll (李奥纳多皮卡丘)   2014-05-13 00:24:56
※ 引述《d25702 (DOTA)》之铭言:
: 我想要做一只可以从网络撷取资料并分析利用的程式,
: 我的初步想法如该图 http://ppt.cc/a3Ve
: 1.撷取网页码我算用httpwebrequest(httpWebresponse)或WebBroswer技术
: 2.分析资料用regularExpression
: 3.接口显示用datagridview
: 4.资料EXCEL汇出则用NPOI
: 但目前我苦无想法与来源来为这只程式注入生命,
: 大家有什么idea吗?
: 注:个人使用语言是VB.NET
以最近工作在碰的来说
不停抓不同来源网站的资料
C# .Net
主要用了两个方法
1. webClinet
优点
可以设定异步下载,跟设定proxy,还有completed事件好处理
缺点
无timeout可使用,若使用到有状况的网络情况, 连线会卡住
必须自己写个timer去处理逾时
无法处理javascript,它只能抓纯文字资料/档案内容
2. webBrowser
优点
可执行javascript,其实它就是个浏览器,是以ie为基底
若要设定proxy的话,比较特别是直接设定ie浏览器的proxy
所以若同时用webbrowser抓不同来源的资料,又需要设定proxy就会很恐怖
缺点
没有明确的download completed事件可以处理,它就是浏览器
会一直保持连线,所以要判断资料有没有正确抓下来得到就很麻烦
还有proxy使用也是
作者: TonyQ (自立而后立人。)   2014-05-13 01:54:00
要用 web browser 的话倒不如用 phantomjs. XD
作者: d25702 (DOTA)   2014-05-13 14:09:00
感谢,受教了~

Links booklink

Contact Us: admin [ a t ] ucptt.com