hi 各位好
我觉得这个问题应该难不倒大家
但我发现我不太知道怎么下手
我目前在统计中国cov感染的数据
比方说安徽省的官方统计数据可在这边找到
http://wjw.ah.gov.cn/news_details_54250.html
这是1月30日的
我有把从1/22-今天的html都下载到一个资料夹下
共40几个html档案
我希望能写个script将 不同日期的新增确诊病例
自动产生csv 报表
类似这样
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜阳 zz
六安 aa
铜陵 bb
池州
黄山
..
.
.
我是想过用linux bash 去写一个script 不过有点卡住
或是用panda应该也可以
能否请各位指点一些方向呢??
感谢!!
作者:
jhnny97 (≡( ゚Д゚))
2020-03-05 13:12:00估狗 generate csv file in <你熟悉的程式语言>
作者:
enthos (影斯作业系统)
2020-03-05 13:19:00作者:
kyoe (缘份‧不再)
2020-03-05 13:23:00read file然后分析然后save csv
作者:
neo5277 (I am an agent of chaos)
2020-03-05 13:34:00selenium
作者:
q90036 (Moz)
2020-03-05 14:15:00使用这些数据之前应该要先问这些中国给出的数字可信度有多少 ...
作者:
rodion (r-kan/reminder)
2020-03-05 14:37:00不是很建议这种超级不具格式的资料.. 先不论正确与否啦...真要做,可能也等所以资料都尘埃落定不再变动 才开始写对应的parser...
用Excel阿 贴到excel 在存盘 存成CSV
作者: superpandal 2020-03-05 22:00:00
你可以用C写 这样应该会更快一点 咚
作者:
gasbomb (虚空雷神兽)
2020-03-06 11:49:00这个连表格都没有 很难用程式处理吧
这个怎么做都可以吧就字串处理mapping在塞到csv里.例如regex 撷取,前后的四个数字。 ex:(合肥50例),(豪洲20例) 之类的
作者:
mathrew (Joey)
2020-03-06 15:29:00没有特定格式就抓关键字