PTT
Submit
Submit
选择语言
正體中文
简体中文
PTT
Python
[问题]scrapy有没有办法在抓资料时做比对?
楼主:
allen511081
(蓝)
2015-03-17 12:10:04
如题,当我的爬虫程式在抓网页资料时有没有办法做比对的动作?
例如:我的每个网页资料有日期、时间、地点、纪录人,附上连结
http://webdata.bird.org.tw/contents.php?key=1
在我观察后面的网页时,发现同日期、时间、地点、记录人的纪录会有好几笔,
这样会造成我的资料的不正确性,我想请教各位高手,
有没有办法在爬虫爬资料时,对于这些日期、时间...等资料先做比对,
有重复则不抓取这页资料,没有重复,再经由item回传输出城CSV档?
作者:
ug945
(ug945)
2015-03-17 16:50:00
写另外程式读CSV比对重复资料会比较好
楼主:
allen511081
(蓝)
2015-03-17 22:03:00
另外写程式判读的话,我该用那些方法呢?例如:我第一页的资料要跟第二页比对,第二页要跟第三页比对,以此类推,麻烦高手指点一下,谢谢
继续阅读
[问题] 新手请教网站爬虫用urllib会跑出乱码
starbygod
Re: [问题] 代码的问题
SocketAM2
[问题] 代码的问题
Dong0129
[问题]PyTrilinos windows安装
MACD
[问题]pandas转换问题
allen511081
[问题] 可以帮忙把这只程式便可以执行吗?
daveninbbs
[问题] 请教一个问题,能否远端
Dong0129
[问题] 读取档案内容的问题
Dong0129
[问题] 用python看linux使用者登入状况
fen78553
[问题]关于scrapy 和pandas 的问题
allen511081
Links
booklink
Contact Us: admin [ a t ] ucptt.com