[请益] 如何将网页的数据自动转成csv? peter308 PTT批踢踢实业坊

[请益] 如何将网页的数据自动转成csv?

楼主: peter308 (pete) 2020-03-05 13:05:17

hi 各位好
我觉得这个问题应该难不倒大家
但我发现我不太知道怎么下手
我目前在统计中国cov感染的数据
比方说安徽省的官方统计数据可在这边找到
http://wjw.ah.gov.cn/news_details_54250.html
这是1月30日的
我有把从1/22-今天的html都下载到一个资料夹下
共40几个html档案
我希望能写个script将不同日期的新增确诊病例
自动产生csv 报表
类似这样
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜阳 zz
六安 aa
铜陵 bb
池州
黄山
..
.
.
我是想过用linux bash 去写一个script 不过有点卡住
或是用panda应该也可以
能否请各位指点一些方向呢??
感谢!!

作者: jhnny97 (≡(　ﾟДﾟ)) 2020-03-05 13:12:00

估狗 generate csv file in <你熟悉的程式语言>

作者: enthos (影斯作业系统) 2020-03-05 13:19:00

https://www.udemy.com/course/codegym-python/ +openpyxl

作者: swallowcc (guest) 2020-03-05 13:23:00

用爬虫 parse dom呢?

作者: kyoe (缘份‧不再) 2020-03-05 13:23:00

read file然后分析然后save csv

作者: swallowcc (guest) 2020-03-05 13:25:00

啊原来是这个样子的资料, 那就抓字串分析了

作者: vi000246 (Vi) 2020-03-05 13:29:00

资料来源只有新闻吗? 这样只能手动整理了

作者: neo5277 (I am an agent of chaos) 2020-03-05 13:34:00

selenium

作者: q90036 (Moz) 2020-03-05 14:15:00

使用这些数据之前应该要先问这些中国给出的数字可信度有多少 ...

作者: rodion (r-kan/reminder) 2020-03-05 14:37:00

不是很建议这种超级不具格式的资料.. 先不论正确与否啦...真要做,可能也等所以资料都尘埃落定不再变动才开始写对应的parser...

作者: domototice (tice) 2020-03-05 17:32:00

用Excel阿贴到excel 在存盘存成CSV

作者: newsbielt703 (3o'clock) 2020-03-05 17:39:00

PapaParse

作者: domototice (tice) 2020-03-05 19:28:00

蒙恬扫描笔???orz

作者: superpandal 2020-03-05 22:00:00

你可以用C写这样应该会更快一点咚

作者: gasbomb (虚空雷神兽) 2020-03-06 11:49:00

这个连表格都没有很难用程式处理吧

作者: gary75952 (MaRs) 2020-03-06 14:29:00

这个怎么做都可以吧就字串处理mapping在塞到csv里.例如regex 撷取，前后的四个数字。 ex:（合肥50例），（豪洲20例）之类的

作者: mathrew (Joey) 2020-03-06 15:29:00

没有特定格式就抓关键字

楼主: peter308 (pete) 2020-03-07 11:43:00

感谢各位提供的资讯。

继续阅读

[心得] 2020-3-5 每日新闻damody [请益] excel自动产生报表？geroge0820 [请益] 研究所领域影响未来工作吗？ponwar87123 Re: [请益] 关于 C 与 embedded 工作市场csfgsj [征才] 群益金鼎证券征求软件设计人员，MIS管理,BJLC666666 [心得] 2020-3-4 每日新闻damody [征才] Square征Software Engineerray3226 [讨论] Python 工程师的家benq Re: [请益] 如何当软件QA??ripple0129 Re: [请益] 如何当软件QA??wt