[问题] 爬动态资料问题

楼主: zcxcxc20002 (凌晨是我)   2015-03-02 14:30:25
各位大大大家好,
爬网页资料很常被用来做一些资料搜集或整理上,
以前不管是使用DOM的比对或者是Regex来处理都还好处理,
但自从很多网页开始使用动态加载资料之后,原本的做法变得不可行。
不知道版有大大有没有相关资讯可以用来解决这样的问题?
是否要透过不一样的技术来搜集资料。?
作者: mmis1000 (秋月恋枫)   2015-03-02 15:52:00
phantom js要不然就自己解出ajax的网站模拟request现在浏览器的开发者工具都有看request的功能
作者: guanting886 (Guanting)   2015-03-02 22:37:00
phantom +1,不过早期都是用C#+WebBrowser硬干
作者: tom76kimo   2015-03-03 00:09:00
楼主: zcxcxc20002 (凌晨是我)   2015-03-03 11:33:00
谢谢各位大大提供,我也都用C#抓比较多
作者: slamgundam (Rick)   2015-03-04 09:36:00
想问phantomjs可以操作linux换IP吗~?
作者: mmis1000 (秋月恋枫)   2015-03-04 12:14:00
你可以把他跟其他语言合用?像是nodejs就有phantom的bridge,phantom js本身也能单独拿来当server用phantom js本身应该没那些功能
作者: slamgundam (Rick)   2015-03-04 14:02:00
Ok,我再研究看看,感谢你~
作者: best940070 (Kevin)   2015-03-20 23:03:00
写浏览器套件去抓

Links booklink

Contact Us: admin [ a t ] ucptt.com