[请益] 取得大量数据的管道?

楼主: dharma (達)   2019-01-18 09:20:40
一般人能拿到的大数据资料
除了股市、政府公开资讯(例如气象)
还有自己爬虫爬网页
之外可能还有什么门路取得大量有品质的数据?
且不用花什么钱的
一般人指的是没有身在什么学术/研究单位
或相关的职场单位
thanks
作者: pelicanper (派立肯)   2019-01-18 09:24:00
你这种问法的答案就是没有,最少给个领域吧
作者: william81615 (别这样玩我)   2019-01-18 09:32:00
有品质 = 花钱整理过,你觉得对方为什么要无偿提供
作者: neo5277 (I am an agent of chaos)   2019-01-18 09:32:00
国外是很多不过也都是本来就开放的,其他就要看相关社群有没有人放,剩下就是自己纪录
作者: novterm (Gcup小女孩)   2019-01-18 09:43:00
kaggle啊
作者: IhateOGC (我讨厌)   2019-01-18 09:45:00
健保数据库花钱就有搂台湾医疗资料连整个家族都有纪录
作者: deniel367 (dann)   2019-01-18 09:46:00
Microsoft Research
作者: vfgce (小兵)   2019-01-18 09:47:00
内行人都知道健保数据库和垃圾没两样...一个一天看上百个患者的医生,你认为他的诊断码会多正确?更不用说为了开药而硬加上去的诊断码..诊断都有问题了,做出来搞笑的结论也不意外..........
作者: kokolotl (nooooooooooo)   2019-01-18 10:01:00
美国官方很多问卷数据库可以抓 以前玩过brfss
作者: ChungLi5566 (中坜56哥)   2019-01-18 10:18:00
嘉实资讯 20年前就开始卖金融数据库
作者: alihue (wanda wanda)   2019-01-18 10:29:00
想要有品质又不想花钱,去自己爬自己整理
作者: abc0922001 (中士abc)   2019-01-18 10:32:00
现在满多资料政府都有开放OpenData了
作者: sean50301 ( (づ′・ω・)づ)   2019-01-18 10:37:00
我们系上教授很爱用健保数据库发论文欸XD
作者: vi000246 (Vi)   2019-01-18 11:59:00
跟诈骗集团买
作者: kyrc (橘子)   2019-01-18 12:01:00
作者: purpleboy01 (紫喵)   2019-01-18 12:16:00
曾经遇过期刊审稿意见说不要再用台湾健保数据库了
作者: lsk200000   2019-01-18 12:17:00
github trending
作者: kerkercheng (✂✂✂✂✂✂✂✂✂)   2019-01-18 13:19:00
花钱crowd sourcing呀
作者: PoloHuang (黄保罗)   2019-01-18 14:25:00
旧金山好像有opendata?
作者: chocopie (好吃的巧克力派 :))   2019-01-18 16:45:00
健保数据库就是个聊胜于无的source问卷资料又比健保资料更难处理
作者: chuegou (chuegou)   2019-01-18 19:33:00
阿不就open data
作者: bean0917   2019-01-18 20:49:00
九楼V大说这些有证据吗?刚好小弟也是这行的您真的知道健保审查过程跟作法?或许真的有这状况但绝对是少数中的少数不要以偏概全,不懂装懂
作者: chocopie (好吃的巧克力派 :))   2019-01-18 20:59:00
他可能分不清什么是诊断码跟医嘱
作者: mathrew (Joey)   2019-01-18 21:42:00
有品质就是有人整理过 所以...
作者: viper9709 (阿达)   2019-01-19 00:59:00
推一二楼
作者: rocking5566 (摇滚56)   2019-01-19 02:20:00
Imagenet
作者: vfgce (小兵)   2019-01-19 07:59:00
呵呵,bean大,本人接触到跟这方面看到的绝对不比你少....
作者: superpai (超级白)   2019-01-19 07:59:00
GitHub
作者: vfgce (小兵)   2019-01-19 08:00:00
就曾有健保审查委员自己亲口说看不懂就删了再说...然后健保局还规定要删一定比例.所以都先删再说..反正医院一定会回复...至于健保一堆规范才是造就出乱给诊断码的祸源...真正有用的资料根本不会在健保数据库...医学方面的研究,很多都是从自己医院的数据库再另外拉资料但对于其他领域的人,根本摸不到也不懂,只好从健保数据库去玩一下皮毛...
作者: ap954212 (death is like the wings)   2019-01-19 14:00:00
中国政府
作者: angusyu (〒△〒)   2019-01-19 14:11:00
要马儿好又要马儿不吃草。你要不要当那只马
作者: asa121 (秋风之痕)   2019-01-19 15:21:00
请问有人知道制造业的资料要去哪边找吗? 需要自费的也可以谢谢
作者: f496328mm (为什么会流泪)   2019-01-19 23:52:00
vfgce 删资料有好有坏,好是提高品质坏是,删 data 等于在挑 data,资料跟实际状况会不同政府有 opendata 但品质堪虑除非医院真正想研发 DATA 这块不然数据库都外包,品质真的很烂制造业的话,kaggle 有生产线分析的比赛真的要玩 DATA ,选国外的绝对比台湾好
作者: q10242 (黑田祐司)   2019-01-20 12:42:00
政府有 open data 你是说这个吗
作者: asa121 (秋风之痕)   2019-01-20 16:33:00
已找到制造业数据,感谢f49提供相关资讯。
作者: OhNo386 (OhNo386)   2019-01-20 22:11:00
你说的都是 google 一直做的呀做免费软件或服务再从里面捞你要的
作者: vfgce (小兵)   2019-01-21 10:19:00
健保数据库顶多用于流病公卫,而且其中的labeling是有问题的请小心服用....很多真正的医学研究,用医院的数据库是因为真正有用的病人资讯是存在医院端的数据库,不会上传到健保数据库去数据库的内容有没有用,是看存的是怎样的资料,跟外包没有很大关系..再差的医院端数据库,有用的东西可能还比健保数据库有用.健保数据库其实比较像流水帐,除了资料量超大,跨院区外,并没有比医院端数据库好
作者: taliao (云淡风清)   2019-01-21 21:23:00
AWS Public Dataset.

Links booklink

Contact Us: admin [ a t ] ucptt.com