hi 各位好
 我觉得这个问题应该难不倒大家
 但我发现我不太知道怎么下手
 我目前在统计中国cov感染的数据
 比方说安徽省的官方统计数据可在这边找到
 http://wjw.ah.gov.cn/news_details_54250.html
 这是1月30日的
 我有把从1/22-今天的html都下载到一个资料夹下
 共40几个html档案
 我希望能写个script将 不同日期的新增确诊病例
 自动产生csv 报表
 类似这样
      一月22  一月23  一月24   ...................三月五日
合肥   xx
蚌阜   yy
阜阳   zz
六安   aa
铜陵   bb
池州
黄山
..
.
.
我是想过用linux bash 去写一个script 不过有点卡住
或是用panda应该也可以
能否请各位指点一些方向呢??
感谢!!
作者: 
jhnny97 (≡(  ゚Д゚))   
2020-03-05 13:12:00估狗 generate csv file in <你熟悉的程式语言>
作者: 
enthos (影斯作业系统)   
2020-03-05 13:19:00作者: 
kyoe (缘份‧不再)   
2020-03-05 13:23:00read file然后分析然后save csv
作者: 
neo5277 (I am an agent of chaos)   
2020-03-05 13:34:00selenium
作者: 
q90036 (Moz)   
2020-03-05 14:15:00使用这些数据之前应该要先问这些中国给出的数字可信度有多少 ...
作者: 
rodion (r-kan/reminder)   
2020-03-05 14:37:00不是很建议这种超级不具格式的资料.. 先不论正确与否啦...真要做,可能也等所以资料都尘埃落定不再变动 才开始写对应的parser...
用Excel阿 贴到excel 在存盘 存成CSV
作者: superpandal   2020-03-05 22:00:00
你可以用C写 这样应该会更快一点 咚
作者: 
gasbomb (虚空雷神兽)   
2020-03-06 11:49:00这个连表格都没有 很难用程式处理吧
这个怎么做都可以吧就字串处理mapping在塞到csv里.例如regex  撷取,前后的四个数字。 ex:(合肥50例),(豪洲20例) 之类的
作者: 
mathrew (Joey)   
2020-03-06 15:29:00没有特定格式就抓关键字