Re: [问卦] 大数据分析与统计分析的差别?

楼主: abc2090614 (casperxdd)   2017-10-18 10:58:10
没什么不同
唯一的差异在数据量大小
平常都是用spark在跑
前几天跟同事想试用scikit learn跑个东西
他把json抓下来20G一塞进去python read_json
直接电脑黑屏给他看
两周量而且已经筛过的的资料
正常一天大概有200~400G左右的data
光是要一个月的资料缩到能用统计方法来作就要花一番心力
然后处理时要跑多久又是另一个问题
只能在服务器上跑
大数据其实光大这个字没意义
难的是把杂乱无章的大数据整理成有用的小数据
接下来再用统计或ML还是啥其实方法都差不多
清data这块大家方法差异比较大
作者: ghmsxtwo (YI)   2017-10-18 11:00:00
Json晚上打球
作者: AAQQUUAA   2017-10-18 11:00:00
那个卖场用大数据比当事人早知道怀孕的都市传说成真了吗
作者: iiscon (となりのぶたく)   2017-10-18 11:01:00
把尿布跟啤酒放在一起增加销售量
作者: ldeathkiller (之之)   2017-10-18 11:04:00
Preprcess是最痛苦的部分
作者: ChungLi5566 (中坜56哥)   2017-10-18 11:04:00
尿布啤酒那是Data Mining 不是大数据
作者: rosenzulu (玫瑰祖鲁)   2017-10-18 11:11:00
那为什么大家都推学python呢? 跑不动还用 没道理啊
作者: toy9986619 (幻飘)   2017-10-18 11:51:00
因为python的工具蛮多的,学起来很快吧spark也可以用python写

Links booklink

Contact Us: admin [ a t ] ucptt.com