[问题] 超新手Side-project请教 xxfaintxx PTT批踢踢实业坊

[问题] 超新手Side-project请教

楼主: xxfaintxx (faint) 2020-09-29 18:37:21

各位大神好，小弟想做一个电影评论网页的Side-project
思考方向与实作思维，还请各位大大不吝指教
1. 目前实作了两支爬虫，一个去抓取yahoo电影的资讯，一个抓取Movie版有
提到"雷"的标题
工具： Scrapy
思考的方向：想将两只爬虫抓下来的电影title与Movie版评论title做比对，
并将电影title标记在Movie版评论Data里，最后存到数据库
完成的问题：成功爬到资料并把图片下载到local端
遭遇的问题：两只爬虫抓下来的资料怎么做比对，目前是将资料汇出csv档，
用pandas .str.contains 去做电影title的比对，但performance
似乎... 很慢是因为我用错方法? 还是有其他更快的方法??
2. 将存进数据库的资料用django呈现网页
工具：django
思考方向：点页面的电影title，呈现图片、网络评分、Movie版乡民暴雷的文章
提供浏览并计算"好雷"、"负雷"、"普雷"的挑论热度
完成的问题：title与图片相关资讯呈现在业面已完成
3. 最后最重要的问题，做完这Side-project 有办法找到Python相关工作吗??
还请大大们指教

作者: max36067 (围巾喵) 2020-09-30 10:38:00

1. 分别放进不同的collection 再实作一个ETL去比对3. 看运气还有你的domain know how 只会用套件可以找到但是你要看自己想要哪种工作

继续阅读

[活动] Taipei Creative Coders Meetup #1 catcatcatcat [闲聊] Python 同好团benq [问题] django :SQL爆表jackjenny [闲聊] 揪团上资策会的课westlifefish [问题] tkinter 如何让显示文字可以反白复制gene50814 [问题] cython 转C code 请益acoupleof123 [问题] 抓起LINE的资料ponwar87123 [问题] 新手请教，keras loss function 循环实现lirpassmore [问题] type hints怎么定义函式物件XperiaZ6C [问题] DJANGO 用JSON格式传前端jackjenny