[讨论] 资料撷取程式发想

楼主: d25702 (DOTA)   2014-05-12 08:59:01
我想要做一只可以从网络撷取资料并分析利用的程式,
我的初步想法如该图 http://ppt.cc/a3Ve
1.撷取网页码我算用httpwebrequest(httpWebresponse)或WebBroswer技术
2.分析资料用regularExpression
3.接口显示用datagridview
4.资料EXCEL汇出则用NPOI
但目前我苦无想法与来源来为这只程式注入生命,
大家有什么idea吗?
注:个人使用语言是VB.NET
作者: GoalBased (Artificail Intelligence)   2014-05-12 09:09:00
去捞色情网站,帮我推荐一部好看的,个人喜欢日系口味
作者: Newtype (你快乐所以我快乐)   2014-05-12 09:11:00
各国运彩赌盘之类的XD
作者: ProGuy (PG)   2014-05-12 09:28:00
现在有不少要跑过js之后网站内容才会出来的网站有兴趣的话请google casper.js
作者: x000032001 (版废了该走了)   2014-05-12 09:54:00
去捞股票资料
作者: pcyu16 (._.?)   2014-05-12 09:59:00
facebook什么的 最近公民议题应该有不少都需要这类东西
作者: Tormentor   2014-05-12 11:35:00
我捞公司有在使用的软件更新档差不多就是类似这样整理
楼主: d25702 (DOTA)   2014-05-12 12:06:00
的确~有一些网站第一手撷取的资料并不是所要的,而是要他跑完javascript后才是所要的资料我本来想捞新闻焦点的说,公民议题这个范围还蛮广泛的
作者: LaPass (LaPass)   2014-05-12 13:03:00
抓成人网站的那个我还真的有朋友写过,不过不公开.....
作者: x90050 (翔雁)   2014-05-12 13:11:00
最近为了抢限定版才写了一只在监控巴哈商城上架
作者: LaPass (LaPass)   2014-05-12 13:12:00
对了,好像有人写出联合pchome、露天、y拍之类的商城的中控系统去监控商品的上架跟下单..... 比原po讲的复杂一点,但基本上的原理是一样的
作者: TonyQ (自立而后立人。)   2014-05-12 15:17:00
http://antispite.tonyq.org/ 我最近的业余兴趣作品。XD网络留言的评估、回馈与分析。
作者: yukari8 (林檎)   2014-05-12 15:56:00
casper.js看起来真不错 我还以为要用开源的JS引擎去处理
作者: plover (喜欢你 ( ̄▽ ̄#)﹏﹏)   2014-05-12 16:15:00
国际麻将八番起胡的原始码
作者: bemaduro (superhotblood)   2014-05-12 16:24:00
最近也想做一个可以捞MLB 成绩的网站!!!
作者: ldkrsi (衰神)   2014-05-12 17:57:00
运动的数据资料不难抓 有些官网有json直接抓
作者: yhaoo666 (yhaoo666)   2014-05-12 20:36:00
一楼这个我喜番
作者: ayumiayayaai (Kulapikachu)   2014-05-13 00:01:00
第二点... 只用 regex 不算是"分析"资料吧
作者: VVll (李奥纳多皮卡丘)   2014-05-13 00:29:00
加个db吧,资料抓下来把分析后的资料写入db变成资讯
作者: ckaha (★闪亮数学推理★)   2014-05-13 00:37:00
想好你要分析什么 大概要哪些资料就准备开始处理ETL吧
楼主: d25702 (DOTA)   2014-05-13 14:11:00
感谢,我先实作第一版程式出来,再来与大家share交流一下。
作者: kvjo (同名专辑)   2014-05-13 14:23:00
我都来抓 股票公司的营收盈余 筹码面 = =工作一忙 就没时间弄成UI 和排schedule了
作者: abola921 (南港金城武)   2014-05-13 23:35:00
有兴趣的话,去抓每天北市公共汽车的资料然后分析他们预测到站时间的误差值,然后再帮个忙把那个路口误差最大算出来有余力的话,再加个气象变量,看下雨对预测的影响 QQ
作者: pkmu8426 (巴426)   2014-05-14 16:28:00
如果要用HtmlDocument结构去解析的话 可以参考下面这张图http://imgur.com/NEu9yc9.jpg 概念差不多 应该有帮助对于单一元素 因为loading延迟的关系 所以除了timer也可以搭配循环的方式设个寻找条件 超过一定次数才放弃寻找该元素。 若考虑需要持续维护该程式 模组化和除错机制的设计 才比较花时间对了Document.readyState属性可检查是否完成加载经常检查 可尽量避免资料不够完整

Links booklink

Contact Us: admin [ a t ] ucptt.com