Re: [问卦] 大数据分析与统计分析的差别？ abc2090614 PTT批踢踢实业坊

Re: [问卦] 大数据分析与统计分析的差别？

楼主: abc2090614 (casperxdd) 2017-10-18 10:58:10

没什么不同
唯一的差异在数据量大小
平常都是用spark在跑
前几天跟同事想试用scikit learn跑个东西
他把json抓下来20G一塞进去python read_json
直接电脑黑屏给他看
两周量而且已经筛过的的资料
正常一天大概有200~400G左右的data
光是要一个月的资料缩到能用统计方法来作就要花一番心力
然后处理时要跑多久又是另一个问题
只能在服务器上跑
大数据其实光大这个字没意义
难的是把杂乱无章的大数据整理成有用的小数据
接下来再用统计或ML还是啥其实方法都差不多
清data这块大家方法差异比较大

作者: ghmsxtwo (YI) 2017-10-18 11:00:00

Json晚上打球

作者: AAQQUUAA 2017-10-18 11:00:00

那个卖场用大数据比当事人早知道怀孕的都市传说成真了吗

作者: iiscon (となりのぶたく) 2017-10-18 11:01:00

把尿布跟啤酒放在一起增加销售量

作者: ldeathkiller (之之) 2017-10-18 11:04:00

Preprcess是最痛苦的部分

作者: ChungLi5566 (中坜56哥) 2017-10-18 11:04:00

尿布啤酒那是Data Mining 不是大数据

作者: rosenzulu (玫瑰祖鲁) 2017-10-18 11:11:00

那为什么大家都推学python呢？跑不动还用没道理啊

作者: toy9986619 (幻飘) 2017-10-18 11:51:00

因为python的工具蛮多的，学起来很快吧spark也可以用python写

继续阅读

[问卦] 关于睡觉DwayneBacon Re: [新闻] 遭爆和张正伟闹离婚！郑诗婷曾叹说...VVizZ [问卦] 台湾棒球实力是不是没酸民说的那么差？monine Re: [问卦] 欸……文组是不是在台湾很难找工作famas2200 [问卦] 如何说服父母让自己离开军校sd4351224 [问卦] 有能力的人除了美国外，第二选择是中国?s72005ming [问卦] 亲戚小孩想打棒球学喝酒来得及吗IslamicState [新闻] 十九大／高雄出生的卢丽安致词：我是台湾XXXXGGYY [新闻] 美国征兵制拟大改适龄男女皆须登记eiw123 [ＦＢ] 人3 ALT盗图?kevin80112