Re: [问卦] 大数据到底多大才算大数据

楼主: Sixigma (六西格玛)   2018-03-12 13:27:56
大数据与否,重点绝非在大小
或是说,不是绝对在大小
重点是,你无法用传统的方法处理的数据,就叫大数据
譬如说健保数据库
会使用的 ML 方法其实很好想像
最基本是线性回归,再来是 D-tree or Random Forest or SVM
或者你可能会用 Clustering 等等
以上这些较传统的 ML 算法
如果你使用 Python ,个人单机电脑大概处理数十 GB 的资料可能就是极限了
但是如果资料是图片
你使用的是 Python Tensorflow
因为 Google 自己本身做了一大堆的优化
包含资料输入的形式、Tensorflow 本身的图运算
以及拜 SGD , BackPropagation 这类算法所赐
在 ILSVRC2017 的 155 GB 之下
我们还是有可能在个人单机下训练 Mobilenet , Inception 甚至 VGG 模型
所以是不是大数据,应取决于你的资料集、算法
如果无法使用传统的运算方法处理,包括你必须要引入分布式架构
使用 NoSQL 或 Cloud 等等
就能够被称为大数据了
※ 引述《omc (鲁蛇第一名)》之铭言:
: 早安各位Monday blue的鲁宅们~
: 不知道曾几何时出现大数据这个名词后,
: 三不五时都会听到这数据出现
: 在科技、医疗、农业、等等各类产业中
: 例如行之有年的长期纪录正常人跟癌症病患的
: 某些特定的基因,来交叉比对是否特定癌症跟
: 特定的基因有相关联...
: 可是勒,类似这种建立数据库长期追踪的实验或分析
: 行之有年阿....最近却都被冠上大数据分析
: 那本鲁就有疑问了阿,阿到底多大的资料才能称作大数据
: 还是从现在开始,所有资料都是大数据?
: 本鲁D槽也是大数据,长期追踪车子油耗也是大数据?
: 有这方面的八卦吗?
作者: jjba310 (走走吧)   2018-03-12 13:29:00
4个V
作者: dodomilk (豆豆奶)   2018-03-12 13:32:00
嗯嗯 跟我想的一样
作者: aaaba (小强)   2018-03-12 13:32:00
认真问,台湾有大数据吗?职缺有超过50个吗?
作者: buper (ymsrc)   2018-03-12 13:36:00
五楼裤裆大数据
作者: gg7965977 (吸血鬼的茶包)   2018-03-12 13:38:00
嗯嗯 跟我想的一样

Links booklink

Contact Us: admin [ a t ] ucptt.com