[问题] 爬虫自动更新程式

楼主: WENroger (三个6)   2018-09-19 16:36:26
手机排版请见谅!!!!
是这样的如题
小弟最近想写一个爬虫自动更新程式
程式有以下目的
例如:
我今天爬观光局网站
将全部景点资讯爬下
过了一个月后观光局多了10个新的景点
我可以透过这个程式让爬虫自动执行
并把这10个新的景点爬下来
请问这个程式是我需要另外再写一个
还是我可以在python做出一样目的?
另外就是我该从哪一方面的资讯去起手?
谢谢
作者: gmccntzx1 (o.O)   2018-09-19 16:44:00
你都说了“找了很多资料不太容易吸收”,何不试着讲出哪些部份不懂?将那些不了解的部份整理成问题发上来问,让大家帮你厘清观念,这样才能学到东西。不然找了资料给你,大家怎么知道哪些是你“容易吸收”的呢?https://git.io/vFLQg -> 顺便学着怎么提问
作者: cutekid (可爱小孩子)   2018-09-19 16:58:00
推楼上 g 大分享的“提问的智慧”
楼主: WENroger (三个6)   2018-09-19 21:32:00
感谢指教 应该说不知哪里起手
作者: gmccntzx1 (o.O)   2018-09-19 22:18:00
讲明确一点,是不知道怎么写爬虫还是不知道怎么做到让爬虫定时更新? 既然你都说了有找资料,先试着说说看你对哪个部份不了解到不知怎么起手?过于笼统的问题,别人也很难回答
楼主: WENroger (三个6)   2018-09-19 22:37:00
不知道怎么让爬虫做到自动更新,像是网络上提到scrapy可不可以做到这个目的?另外就是先前资料都是汇入excel做整理再汇入数据库,这样子的步骤会不会影响爬虫的自动更新?
作者: gmccntzx1 (o.O)   2018-09-19 22:44:00
关于自动更新,先给你些关键字: cron job, scheduler利用这些工具/函式库去做定期执行爬虫的工作当然,新旧资料的整合就要看你自己怎么处理关于第二个问题,你说的先将资料汇入 excel 整理后再汇入数据库这部份,请问是手动的吗?如果你写的爬虫部份包含将资料抓下来后写进数据库,那么当要抓取的资料量和处理时间会多到你手动处理后再汇修正:会多到和你手动整理资料并汇入的动作起冲突时,那就当然会影响。所以这点你就要考虑:1. 舍弃手动去整理资料的方式,用程式自动化这部份。2. 如果资料非得经过人工处理,那爬虫就写好只负责将资料抓下来。剩下处理资料和汇入数据库的部份,就由自己处理。关于这两部份,如果有实作上不懂的细节,你可以整理好再上来发问,相信会有更专业的人可以帮到你。
楼主: WENroger (三个6)   2018-09-19 23:00:00
感谢g大耐心的解答 未来有不懂的地方还要烦请g大多多解惑 非常感谢!
作者: gmccntzx1 (o.O)   2018-09-19 23:07:00
不会,我仅能帮到这点程度而已。以后发问时尽量说明详细一点,如果是程式实作的问题,可以照着 SSCCE 或MCVE 的规范描述问题,通常能让别人更快了解并帮助你。好的提问不仅可以帮助自己,也能让助人者有收获,未来也有机会帮助到其他遇到相同问题的人。加油!
作者: rexyeah (ccccccc)   2018-09-19 23:32:00
gm真的很有耐心的仔细回答
楼主: WENroger (三个6)   2018-09-19 23:50:00
好的 非常感谢g大!
作者: MCDDD   2018-09-21 21:53:00
g大真的猛!!
作者: innona (小过)   2018-09-24 01:15:00
推g大
作者: cancelpc (阿吉)   2018-09-25 07:38:00
楼主是要练习写爬虫,还是有需要?若是需要的话,去查查是否有 opendata 方式直接抓

Links booklink

Contact Us: admin [ a t ] ucptt.com