[请益] 如何将网页的数据自动转成csv?

楼主: peter308 (pete)   2020-03-05 13:05:17
hi 各位好
我觉得这个问题应该难不倒大家
但我发现我不太知道怎么下手
我目前在统计中国cov感染的数据
比方说安徽省的官方统计数据可在这边找到
http://wjw.ah.gov.cn/news_details_54250.html
这是1月30日的
我有把从1/22-今天的html都下载到一个资料夹下
共40几个html档案
我希望能写个script将 不同日期的新增确诊病例
自动产生csv 报表
类似这样
一月22 一月23 一月24 ...................三月五日
合肥 xx
蚌阜 yy
阜阳 zz
六安 aa
铜陵 bb
池州
黄山
..
.
.
我是想过用linux bash 去写一个script 不过有点卡住
或是用panda应该也可以
能否请各位指点一些方向呢??
感谢!!
作者: jhnny97 (≡(  ゚Д゚))   2020-03-05 13:12:00
估狗 generate csv file in <你熟悉的程式语言>
作者: enthos (影斯作业系统)   2020-03-05 13:19:00
作者: swallowcc (guest)   2020-03-05 13:23:00
用爬虫 parse dom呢?
作者: kyoe (缘份‧不再)   2020-03-05 13:23:00
read file然后分析然后save csv
作者: swallowcc (guest)   2020-03-05 13:25:00
啊原来是这个样子的资料, 那就抓字串分析了
作者: vi000246 (Vi)   2020-03-05 13:29:00
资料来源只有新闻吗? 这样只能手动整理了
作者: neo5277 (I am an agent of chaos)   2020-03-05 13:34:00
selenium
作者: q90036 (Moz)   2020-03-05 14:15:00
使用这些数据之前应该要先问这些中国给出的数字可信度有多少 ...
作者: rodion (r-kan/reminder)   2020-03-05 14:37:00
不是很建议这种超级不具格式的资料.. 先不论正确与否啦...真要做,可能也等所以资料都尘埃落定不再变动 才开始写对应的parser...
作者: domototice (tice)   2020-03-05 17:32:00
用Excel阿 贴到excel 在存盘 存成CSV
作者: newsbielt703 (3o'clock)   2020-03-05 17:39:00
PapaParse
作者: domototice (tice)   2020-03-05 19:28:00
蒙恬 扫描笔???orz
作者: superpandal   2020-03-05 22:00:00
你可以用C写 这样应该会更快一点 咚
作者: gasbomb (虚空雷神兽)   2020-03-06 11:49:00
这个连表格都没有 很难用程式处理吧
作者: gary75952 (MaRs)   2020-03-06 14:29:00
这个怎么做都可以吧就字串处理mapping在塞到csv里.例如regex 撷取,前后的四个数字。 ex:(合肥50例),(豪洲20例) 之类的
作者: mathrew (Joey)   2020-03-06 15:29:00
没有特定格式就抓关键字
楼主: peter308 (pete)   2020-03-07 11:43:00
感谢各位提供的资讯。

Links booklink

Contact Us: admin [ a t ] ucptt.com