[问题] 如何有效率地学习爬虫(台湾股市资讯网)？ bunby PTT批踢踢实业坊

[问题] 如何有效率地学习爬虫(台湾股市资讯网)？

楼主: bunby (Bunby) 2020-11-01 08:38:38

目的：
抓取台湾股市资讯网的资料，不用手动输入代号，然后选择个股市况/每月营收/基本资料
/法人买卖超/每月营收/股利/财务报表(单季/年度)，然后再复制/贴上到excel上。
注记0：goodinfo默认带入的月营收，时间排序是从下到上，我想要从上到下。
注记1：goodinfo默认带入的损益表是“累季”的，我想要选择“单季”还有“年度”。
注记2：goodinfo默认带入的格式，时间排序是从右到左，我想要从左到右。
范例档说明档下载：
https://wsi.li/dl/stNaX7Dqu6JdvhPqK/
想使用的工具：python或者excel(vba)
使用Python：
优点：套件多，网络资源也多，功能也强大。
缺点：不知道抓取资料后，能不能像excel这样排好一个个sheet？
使用Excel：
优点：抓取资料后可以直接在上面整理。
缺点：没有套件，处理网页资讯可能会让code变的很复杂。
小弟背景：
会hello world，看的懂简单的宣告、循环、判断式。
目前遇到的困难：
0. 网络上的资源感觉太过零碎，想请问各位有没有推荐比较详细、比较适合初学者，
然后有系统的书？
1. 感觉爬虫最困难的部分是在处理网页，请问爬虫之前要先搞懂一部分的html的架构
吗？
目前有看到适合的书：
Python：
0. Python网络爬虫：大数据撷取、清洗、储存与分析：王者归来
1. Python：网络爬虫与资料分析入门实战
VBA：
0. 文科生也学得会的网络爬虫：Excel VBA + Web Scraper
1. Excel VBA实战技巧｜金融数据x网络爬虫
注记：
0. 不想花几千块买课程，但是可以买几本书，还是说买课程最快最有效率？
1. 小弟不在乎几秒的执行效率，只求抓的资讯来源正确无误。
2. 爬股市资讯可能只是第一步，或许之后可以再往其他的方向迈进。
谢谢各位花时间看这篇文章。

作者: MOONY135 (谈无欲) 2020-11-01 08:44:00

只是要做这种事情根本还不需要买书网络上资讯拼一拼就好而且看起来你根本就还只是停在想而没有开始做。google一下就找到有人做过了Goodinfo的东西看起来可以写code再整理一下格式...开始动手吧不然永远学不会

作者: OrzOGC (洞八达人.拖哨天王) 2020-11-01 09:33:00

女生我不知道对男生来说最有效率的方法就是去爬prontube

作者: aidansky0989 (alta) 2020-11-01 10:04:00

先会写脚本爬ptt西斯送到mysql，学会了再爬dcard西斯或104送mysql，都会了学scrapy爬ubereats或京东，不会的google或看requests文档，爬一周再考虑找书或课程

作者: TakiDog (多奇狗) 2020-11-01 13:50:00

爬O片网站，解析到真实影片位置(可直连的) 会学到很多反爬跟拆别人API流程的知识

作者: ToastBen (吐司边) 2020-11-01 17:06:00

推一楼

作者: andy19960407 (258698) 2020-11-03 21:29:00

一楼诚实

作者: miku3920 (初音ミク) 2020-11-04 01:22:00

花钱

作者: rs6000 (正义的胖虎) 2020-11-04 07:10:00

先动手做做看再说...

继续阅读

[问题] 找出部份符合特定字串的html tagkurt80628 Re: [问题] read() {"\"AAA\""}如何转成{'"AAA"'}piligo [问题] read() {"\"AAA\""}如何转成{'"AAA"'}piligo [问题] 同时监控subprocess的方法？energyaxd [问题]如何在云端排程执行.py或者打包好的exe档fghdfh [问题] 内存不足cathy0610 [问题] python input() 如何在slurm中使用?feather2 [问题] 转换wahahaiou [问题] 判断一段讯号中是否存在所要特征nicha115 [问题] 批量修改txt中的特定内容shopy691708