[请益] Web跟资料工程

楼主: lin3835 (小小母牛)   2023-04-10 04:36:31
各位好
小弟目前的工作是后端Web仔写写API
后来业务上有接触到mapreduce Apache Flink 这种大数据运算框架
想请教一下各位前辈
如果为了下一份工作打算
会用这些框架 是有办法往资料工程师当下一份工作吗?
或者是说需要补足的知识工具其实更多?
靠刷题之后找Backend Engineer比较容易?
谢谢各位
作者: ripple0129 (perry tsai)   2023-04-10 06:13:00
Chatgpt问世后未来说不准了
作者: kimoji (好舒服)   2023-04-10 08:35:00
很多资料工程都要值班维运喔
作者: gpctv (gpctv)   2023-04-10 08:55:00
ETL很可怕
作者: BigCockman (大雕男)   2023-04-10 09:49:00
身兼backend和data 老板最爱
作者: hsuchengmath (AlbertHSU)   2023-04-10 12:24:00
要转data eng ,看他的JD啊,或是去linkedin敲dataeng 然后问
作者: acgotaku (otaku)   2023-04-10 12:46:00
这些都是高级excel 只是工具 没啥优势或门槛AI 取代这种工具类的操作/分析者 是可预见的未来
作者: samhsu (sam)   2023-04-10 12:56:00
Data Engineer 炙手可热,就算没落也可以转后端,没道理不选
作者: alan5 (小安)   2023-04-10 13:00:00
你可以试着取代看看啊 de的重点一直是人不是工具操作
作者: acgotaku (otaku)   2023-04-10 13:09:00
我没有说取代de 是取代初级的分析操作者因为我认为原po叙述 离 de的能力需求还是差满多
作者: loadingN (sarsaparilla)   2023-04-10 13:39:00
看你想清资料还是继续当web仔
作者: DrTech (竹科管理处网军研发人员)   2023-04-10 13:39:00
身为专业工程师,有时间可以拿实际证据与实作来说明吧。如果DE可以被AI部分取代,真的欢迎拿实际例子来交流学习。资料工程师养成,要实务一点,不要会一堆工具,然后什么都没做过。举例:有10亿笔结构化资料,你要怎么存与查询,一秒可以查到? 朝这种很实务的角度去学,才是正轨。没环境就自己造垃圾资料,架虚拟环境来玩。只是用过工具,然后一遇到实际问题就挂,可能很难找类似工作。
作者: Hsins (翔)   2023-04-10 14:36:00
DE 在处理的主要业务不是分析操作,楼上 DrTech 说的才是 DE 在关心的,需要根据业务需求规划资料生命周期内的资料储存方式跟型态,说是高级 Excel 工具是在哈囉……
作者: abc65379 (silent)   2023-04-10 15:00:00
看起来你想走运算平台而不是仓储?
作者: Sunal (SSSSSSSSSSSSSSSSSSSSSSS)   2023-04-10 16:00:00
原来现在DE只是专注工具的使用?那被AI取代刚刚好
作者: cmcer (lazyman)   2023-04-10 16:22:00
大家都默认AI不能解决实务的问题也是挺值得讨论的点
作者: alan5 (小安)   2023-04-10 17:15:00
解决老板不想用rdb想用mongo存结构化资料的问题ai应该会叫我解决老板
作者: breccia (布蕾莎)   2023-04-10 17:30:00
说mapreduce Apache Flink是高级excel是在搞笑吗= =?先搞清楚资料分析和data engineer的区别好吗
作者: TAKADO (朕没给的你不能抢)   2023-04-10 19:45:00
好的DE跟日本原装压缩机一样十分稀少,要对domain 的深入理解跟大量的技术与经验积累。遇过那种高手就知道,本来只能等都更炸掉重改的中古垃圾屋,都能给你翻成漂漂亮亮的北欧风温馨文青宅。
作者: kero961240 (阿哲)   2023-04-10 20:47:00
想询问哪里可以学到相关知识
作者: Hsins (翔)   2023-04-10 22:58:00
仓储是资料工程喔,经典著作 The Data Warehouse Toolkit有时间可以慢慢翻一下。会说是高级 Excel 工具应该是指看到MapReduce 的部分,但这种操作并不是只能用在分析上……至于待遇跟薪水问题,去看 DrTech 写过的某篇文吧,国家跟产业的权重会比职称和使用的技术要高,你说资料工程跟后端来比谁高,不提产业也无从比较起…框架的大方向未必是处理效率问题,有的是处理扩展性问题Hadoop 生态系没有偏向资料分析呀~ 至于 Flink 是是为了处理一些需要实时计算的资料的,当大量资料实时产生的同时需要分析计算会用到,要看一下你现在的业务到底接触的是哪一越接近用户端使用的部分,相较是比较简单的,上面 D 大提到的,是偏向于提供资料使用人员(DS/DA)去做的 infra多数 DE 会在串接跟维护 Data Pipeline,你说的套用某个规则去整理出某人或是某个部门的资料,可能只是这条 pipeline上,某一个资料出水口需要做的事~ 要挖的东西是满多的,有兴趣可以从这个方向开始切进来~的确在有些公司 DE 除了基础服务设施和资料处理之外,还要
作者: luce   2023-04-10 23:38:00
现在有人在用mapreduce? 我还真的没在商业产品上看到过
作者: Hsins (翔)   2023-04-10 23:38:00
包山包海去处理分析和视觉化…
作者: alihue (wanda wanda)   2023-04-10 23:42:00
公司资料量够大都要靠 map reduce 来做分布式处理吧…几亿笔资料的 indexing 难到你要一台机器做还有大量 log 的 data pipeline,use case 很多
作者: Hsins (翔)   2023-04-10 23:54:00
还有不少用 Hive 的,背后做还是 MapReduce,现在的确 Spark 跟 Flink 居多
作者: alan5 (小安)   2023-04-11 12:17:00
只是比较没有纯写mapreduce 框架背后还是mr啊de会去服务使用flink分析的user de就要了解flink
作者: ab07275566   2023-04-12 09:44:00
DE 是个坑,每家DE 要的技能点可能都有点些许不同,进来会发现包山包海,什么能力都要,可以多看看,再看要不要走 DE
作者: weinine32 (随意)   2023-04-12 10:00:00
mapreduce早被淘汰了,居然还有人在用Zzzz
作者: daydream772 (皮老板)   2023-04-12 14:54:00
分布式运算被后概念就是mr啊,还是你以为跑spark就不是MR
作者: weinine32 (随意)   2023-04-12 18:18:00
那你应该先学Java,顺便把原始码、论文看一看,加油 Zzzz

Links booklink

Contact Us: admin [ a t ] ucptt.com