[心得] 初阶 DevOps/SRE 工程师是如何炼成的

楼主: IcecreamHsu (冰淇淋)   2021-03-12 15:57:59
markdown 好读版:
https://tech-blog.jameshsu.csie.org/post/devops-entry-level-sre-road/
## 前言
背景是学生,大约两年的 SA/DevOps 学习经验,刚拿到 ByteDance 的 SRE offer,
所以应该可以算是 Entry-level 的 SRE 了,
会想写这篇分享是因为看到满多人对 DevOps/SRE 的印象是很吃经验,
不太可能让新鲜人做,对这种印象算一半认同(我就是反例XD),
另一方面也想让有兴趣的人知道该如何入门这个领域
详细的背景在前一篇 SRE 面试文(#1WFpX6V3)写得比较多
### 什么是 DevOps/SRE?
我无意在这篇谈 DevOps 的商业或管理价值,
也无意细分 DevOps Engineer 和 SRE 的区别,
很概括且从技术角度来说,DevOps 的重点是
1. 减少从设计、开发(需求、程式码)到测试、部署(程式)的时间
2. 加强回馈机制(包括但不限于监控、告警)
3. 过程中持续快速的叠代、学习
(改写 DevOps 三步工作法)
文末会附 DevOps 相关的书单
## 技能树
这一部份会以 https://roadmap.sh/devops 搭配讲解
以下的顺序以我个人学习、接触的时间轴做排列
### 语言
建议 Python、Go、JavaScript 三者至少要一个精通、一个熟练,第三个可以作为辅助。
会推荐这三个语言是因为这三个语言要写自动化的小工具时都很方便;
其次这三个语言各自有强项:
- Python:易于和其他人协作、精于 ML(对,SRE 有可能会需要 ML 辅助)
- Go:很多 DevOps 的工具包含 Prometheus, Kubernetes, Docker, Drone
都是 Go 写成的,要写网页后端也很轻松
- JavaScript:要写简单的网页前端一定要会 JS,
像 aws cdk 也是 TypeScript 的支援比较丰富
但也不是说一定要学这三个语言,例如学 java 就可以结合 jenkins 生态系,
所以就看怎么运用自己的优势
### Linux/Shell Script
如果一开始接触的是 Windows 环境,可以去装 WSL 体验 Linux,
不管如何,走这一行一定要学习 Live in terminal,
基本的 cd, ls 就不用说了,跟字串处理有关的 grep, sed, awk, cut 也都要很熟
还有像 wget, curl 等等,要列出所有会用到的指令和工具实在是列不完
有好的 google 搜寻能力的话,stackoverflow 会是你很好的朋友
对 git 也应该至少要会基本的并可以用在专案上
Linux 除了主流的 Ubuntu 以外也可以多尝试其他 OS,例如 CentOS、Alpine 等等
这部份可以在挑选云端的虚拟机器 或是 run container 的时候去多多尝试
另外对 Linux 的观念包含档案系统、process management, DNS, DHCP 等等
也应该要有基本认知
### 架站 / SA 相关
会一门程式语言,而且对 Linux 够熟之后,就可以尝试架站了。
克难一点是可以用自己的机器架,
不过建议还是去租云端的机器(例如 aws, gcp, azure)
虽然有可能要花钱(免费的方案不是速度很慢就是不能用太久),
但有 public IP 和 24 小时不停机就是方便,也能学到更多东西
我个人很推用架站来学习,因为在过程中可以学到:
1. 处理网址要了解 DNS, IP, 域名的概念
2. (如果是云端环境) 学习如何 ssh, live in terminal
3. 设定 Web Server (nginx, apache, etc.)
4. 写网站前端(http, css, js)、后端(python, go, etc.)
5. 想要一个域名、一台机器但对应到多个网站时,
如何设定 Reverse Proxy 和 VM/Docker
6. 跟第三方签 certificate 设定 HTTPS
7. (如果要寄注册认证信) 装 Email Server (SMTP, Reverse DNS, DNS Server)
8. 在 Server 上 Debug
9. 监控网站流量、机器状态
至于网站要写什么,如果没有想法可以往购物车或需要注册登入的网站去发想
新手建议先从前后端混合的框架开始写(例如 Python 的 Django),
比较不需要太多 JavaScript 的知识
也可以偷懒不写程式码,架 WordPress 或跟会写网站的朋友合作,
但学到的东西就会少很多,也容易沦为纯 Ops
### CI/CD
网站有雏型之后,慢慢的会开始觉得本机开发到要更新 Server 的程式的流程很麻烦,
特别是在频繁更新和 Debug 的时候,
这正是 DevOps 要解决的主要问题:缩短 Developers 和 Operation 的距离
具体的解决方式便是引入 CI/CD 的 Pipeline
CI/CD 简单来说即是让程式码的 build, test, deploy 自动化,
使得 developers 只要 push 到版控工具(github/gitlab, etc.),
后面就有机器自动的更新 server 的程式
有满多工具可以做到 CI/CD,
新手若无头绪我会建议使用 GitLab 内建的 CI/CD,
结合他们自家的版控功能做一条龙
也可以看自己擅长的语言决定用 jenkins 或 drone 或其他工具,大同小异
如果用 GitLab,推荐自己架一个 GitLab 和 Runner (跑 CI 的环境) ,
有人写了很方便的 docker-compose 可以一行架起来
### 容器(Containers)
随着网站规模愈来愈大,可能会在这台机器上架好几个网站,
gitlab, blog, prometheus 等等,
这些服务都建议尽量容器化用 Docker/Docker-compose 跑,
过程中会对 Containers 比较熟
如果有兴趣也可以玩 Kubernetes 或类似的容器管理平台,但 k8s 水很深,慎入
### 写小工具 / 接触开源
如果前面的部份都摸得差不多了,可以加强 Develop 的程度,
去多摸一门语言,或是深入研究本来会的语言的特性、OOP
也可以尝试写一些小工具,例如爬虫、middleware、metrics exporter 等等
同时在这个阶段尽可能的去接触开源,一开始会觉得挫折、看不懂是难免的
对规模较大的 repo 欣赏它的架构、规模小的 repo 尝试去看懂里面的 code
广泛阅读 open-source 的专案、技术文章,是这个阶段进步最快的方式
### 以专案为本
大量阅读 open-source 的程式码和技术文章的过程中,可能会读到很多没用过的技术,
但也比较能区分 Clean/Dirty Code,
这时候可以尝试做比较大型的专案,套用想学习的技术
如果有资源,可以做一个纯云端的专案,毕竟会征 SRE 的公司很少有不上云的,
而且云端服务会提供很多服务,例如 Load Balancer、Auto Scaling 等等
又例如 SQL 要架在 EC2 还是用 Aurora 这些取舍都挺值得玩味的
(个人对 aws 比较熟,所以例子都举 a 家的)
实习也是做专案的方式之一,如果没办法实习,看能不能尽量接触多人开发的专案,
会对于软件开发的流程更熟悉,
例如切 staging/production 环境、开发如何切 branch, 开 issue 等等
这里节录部份我以前做过的 project 和用到的技术
- LeetCode 爬虫 (Go)
- Dcard 后端面试作业 (Go/Gin, Redis, Travis CI)
- 做 LineBot CI/CD Pipeline (aws: Route53, EKS (k8s), DynamoDB, S3; Vault)
- PTT 爬虫 (Go, Goroutine, Channel)
- Blackbox Monitoring (Prometheus, Grafana, AlertManager)
- RESTful API Server (Go/Gin, jwt, ELK,
MySQL, Unit/Integration Tests, Redis, Prometheus,
Vue/TypeScript, azure: AKS, VM)
### 补足 OS、Networking 知识
说得直白一点就是为了面试做准备啦,但这些知识或多或少也会在实战中用到
## 结论
在面试的 Q&A 环节,我问 ByteDance 的面试官“一个 SRE 应该具备哪些特质”,
他回答我要能临危不乱、Reactive、Think out of the Box,
后者直翻是跳脱框架,但从面试官的解释比较像是全局思考,
我个人会解读出两种层次,第一个层次是不能仅仅只在意 config 怎么设定,
而要考虑整个架构的逻辑,包含前面提到的取舍,这才是体现一个 SRE 价值之所在
第二个层次是不要被工具绑架了,DevOps 注重的是流程和文化,
最近体验到的一个例子是已经有 Python 的自动化的 script,
就没必要引入其他的 CI/CD 工具,目的有达成最重要,这也是最近小的在努力的方向
除了技术以外,如果想要研究 DevOps 方法论的可以读 凤凰专案、DevOps Handbook
上面这两本是直接与 DevOps 相关,
另外也可以读一些管理学的书包含高德拉特的目标、第五项修炼,或是精实相关的书
SRE 一生都在和复杂系统打交道,也可以看看反脆弱和黑天鹅这一系列的书,
会对于一些神奇的方法论(例如 Chaos Engineering)比较理解缘由
不确定以上的内容对看的人有没有帮助,毕竟还很菜,
如果有什么问题或指点请不吝提出
个人其他地方常用 ID 是 jameshwc,欢迎大家找我交流
作者: ethan86116 (Fre.)   2021-03-12 16:02:00
泪推学Go,最近碰到一堆Go的开源工具有小毛病得去修或是自己加功能的情形,但自己又不会Go只好卯起来用Reference乱trace
作者: okita3088 (Okita)   2021-03-12 16:07:00
帮推大致上都有提到。
作者: BlacksPig (Black Handsome s Pig)   2021-03-12 17:14:00
推,真的感觉水很深,每间公司又深在不同地方(工具、语言都不一定一样)
作者: a9101214 (nacu)   2021-03-12 17:44:00
作者: cuteSquirrel (松鼠)   2021-03-12 17:49:00
推 这篇大纲很扎实 精华总整理
作者: eju901677 (诚)   2021-03-12 18:07:00
作者: Celinealone   2021-03-12 18:07:00
感谢分享 另外那个书单好像没有出现在文末?喔喔不好意思看到了 原来是中文书XDD
作者: jack931018 (jack931018)   2021-03-12 18:20:00
作者: patrick555 (PE07181205)   2021-03-12 18:28:00
作者: ChangeXD (欠举)   2021-03-12 18:33:00
推推,自己不小心接触到SRE发现这条路也很有趣!感谢你的心得,希望可以追上你的车尾灯XD
作者: AgileSeptor (S.Duncan_JB)   2021-03-12 18:49:00
作者: CodingDuck (框框)   2021-03-12 19:05:00
推,不过个人对 DevOps handbook 的感想比较复杂,理念是对的,就是有些案例个人觉得比较不切实际...
作者: hank8451 (hank)   2021-03-12 19:05:00
感谢分享~
作者: CodingDuck (框框)   2021-03-12 19:06:00
像是什么半夜开会大家会更有效率,出问题就整个 Value stream 上的人全部来开会之类的...只能学概念,整套全学一定会落于形式。
作者: WaterLengend (Leeeeeeeeooooooo)   2021-03-12 19:14:00
这篇不错,推
作者: Fuyouny (浮云)   2021-03-12 19:30:00
推推
作者: superpandal   2021-03-12 19:45:00
很平常 还是继续我的黑魔法
作者: Lyu7 (永远的初学者)   2021-03-12 19:49:00
推?抱歉按到?,它在!隔壁Q_Q
作者: Virness   2021-03-12 19:53:00
推一个 程式界前辈
作者: Apache (阿帕契)   2021-03-12 20:54:00
大师
作者: iwant2sleep (Zzz)   2021-03-12 21:31:00
作者: masturbateee (奶头好痒怎么办)   2021-03-12 23:43:00
强者推
作者: IlovePLUSone (普拉斯万)   2021-03-13 02:34:00
先推推
作者: taipoo (要成功要积极)   2021-03-13 03:59:00
作者: black2575 (说的也是)   2021-03-13 10:04:00
作者: jackflu (jackflu)   2021-03-13 10:06:00
谢分,问下 Reactive 是啥特质或意思?也是指临危不乱吗
作者: LordCHTsai (我饿了)   2021-03-13 10:40:00
恭喜拿到offer,老实说特质什么的都是场面话SRE最重要的其实是,oncall记得随身带电脑
作者: lee457088   2021-03-13 14:45:00
推,112 果然猛
作者: mmonkeyboyy (great)   2021-03-13 14:54:00
那两个字其实也不太一样 @[email protected]~ 一个比较像反射 一个像是想过再去做动作以系统来说 都叫reactive 但下面应该还要有responsive elastic resilient最少三大类
作者: gcobc19622   2021-03-13 23:17:00
推推 感谢分享
作者: m9j002 (飞黄腾达)   2021-03-15 16:29:00
好文 ! 推
作者: e007926 (JeremyC)   2021-03-16 19:02:00
推推
作者: shooter555 (shooter)   2021-03-17 09:22:00
详细给推
作者: demo1945 (demo)   2021-03-17 16:42:00
详细推
作者: oopssugar (ratio)   2021-03-24 23:09:00
推,感谢分享
作者: KAOKAOKAO (鬼斗)   2021-03-30 12:07:00

Links booklink

Contact Us: admin [ a t ] ucptt.com