没什么不同
唯一的差异在数据量大小
平常都是用spark在跑
前几天跟同事想试用scikit learn跑个东西
他把json抓下来20G一塞进去python read_json
直接电脑黑屏给他看
两周量而且已经筛过的的资料
正常一天大概有200~400G左右的data
光是要一个月的资料缩到能用统计方法来作就要花一番心力
然后处理时要跑多久又是另一个问题
只能在服务器上跑
大数据其实光大这个字没意义
难的是把杂乱无章的大数据整理成有用的小数据
接下来再用统计或ML还是啥其实方法都差不多
清data这块大家方法差异比较大