[问题] 超新手Side-project请教

楼主: xxfaintxx (faint)   2020-09-29 18:37:21
各位大神好,小弟想做一个电影评论网页的Side-project
思考方向与实作思维,还请各位大大不吝指教
1. 目前实作了两支爬虫,一个去抓取yahoo电影的资讯,一个抓取Movie版有
提到"雷"的标题
工具: Scrapy
思考的方向:想将两只爬虫抓下来的电影title与Movie版评论title做比对,
并将电影title标记在Movie版评论Data里,最后存到数据库
完成的问题:成功爬到资料并把图片下载到local端
遭遇的问题:两只爬虫抓下来的资料怎么做比对,目前是将资料汇出csv档,
用pandas .str.contains 去做电影title的比对,但performance
似乎... 很慢 是因为我用错方法? 还是有其他更快的方法??
2. 将存进数据库的资料用django呈现网页
工具:django
思考方向:点页面的电影title,呈现图片、网络评分、Movie版乡民暴雷的文章
提供浏览并计算"好雷"、"负雷"、"普雷"的挑论热度
完成的问题:title与图片相关资讯呈现在业面已完成
3. 最后最重要的问题,做完这Side-project 有办法找到Python相关工作吗??
还请大大们指教
作者: max36067 (围巾喵)   2020-09-30 10:38:00
1. 分别放进不同的collection 再实作一个ETL去比对3. 看运气 还有你的domain know how 只会用套件可以找到 但是你要看自己想要哪种工作

Links booklink

Contact Us: admin [ a t ] ucptt.com