[心得] SOA-PA考试心得

楼主: NoodlesFSA (Noodles)   2019-06-16 04:01:27
刚考完Jun, 2019的Predictive Analytics (PA) (预测分析),
趁著记忆犹新来分享一些考试心得。
1. 考试介绍:
PA是SOA 2018年改革后完全新增的科目,
考试时间5小时15分钟,
考试要求使用R进行商业个案的资料分析,
并同时撰写一份报告。
在考PA之前,需要先通过SRM、或者旧有VEE-Applied Statistics才能报名。
报名后,SOA会开通线上学习模组 (e-Learning Module),
并且开通后11个月内可以报名PA的考试。
也就是说,可以选择报名未来一年内两次考试的其中一次 (6月或12月),
但只能报名一次!!! (划重点) 考第二次PA的话是原价!!!
等于Module是送的,只要考一次就要付一次完整的价钱。
2. 准备资料:(依主观认为的重要程度排序)
- e-Learning Module
- May, 2019公布的Hospital Readmissions Sample
- Dec, 2018考古题
- An Introduction to Statistical Learning, with Applications in R (2013)
- R for Everyone (2017)
- 其它Syllabus提及的资料
简单来说,e-Learning Module给了一个全盘概览,
明确SOA希望考生掌握的知识点,
并以类似投影片一张一张的方式详述整个PA的来龙去脉。
不过如果各位像我一样不容易在投影片中抓重点的话,
那就可以搭配An Introduction to Statistical Learning, with Applications in R以及R for Everyone两本原文书相对应的章节一起看。
此外,An Introduction to Statistical Learning, with Applications in R每个章节后面的Code写的很棒,
如果时间充裕也建议一起看。
考题部分,Module以及Syllabus中提供共约4、5份的Sample,
其中我优先看May, 2019 Hospital与Dec, 2018真题。
因为May, 2019 Hospital跟真实考试的框架最像 (逐个Task问答模式)、
Dec, 2018则是唯一一份的考古题,答案中写了很多SOA希望考生回答到的点。
整体准备时间花了8周 (四月中才把PA打开),
但事后来看,对没基础的人,将时间拉长到16周会比较适当。
3. e-Learning Module介绍:
开通后共会出现9个Modules,分述如下:
(注:以下的重要性是 ”对于备考PA” 的重要性)
Module 1: 预测分析会用到的工具 (重要性:中)
- 如何安装R与RStudio
- 基本的R指令
- 写R代码的风格
Module 2: 定义商业问题 (重要性:低)
- 如何将模糊、叙述性的商业问题转换为可以用统计、预测分析来解决的问题
Module 3: 数据视觉化 (重要性:中)
- 如何用ggplot2画图
Module 4: 数据型态与数据探勘 (重要性:中)
- 数据的各种型态
- 如何处理missing value
- univariate, bivariate的数据探勘
Module 5: 数据清洗 (重要性:中)
- 识别outlier
- 如何处理数据的非线性关系
- 数据使用的规范
Module 6: 广义线性模型 (重要性:高)
- 线性模型与广义线性模型
- 解释结果与选择最适合的模型
- 正规化法 (Ridge, Lasso, Elastic Net) 控制回归
- 偏差和变异之权衡 (Bias-Variance Tradeoff)
Module 7: 决策树 (重要性:高)
- 回归树与分类树
- bagging, random forest, boosting增加精确度
- 调整参数 (Hyperparameter tuning)
Module 8: 集群分析与主成份分析 (重要性:高)
- 主成份分析
- k-means集群分析
- 阶层集群分析 (hierarchical clustering)
Module 9: 报告的沟通与传达 (重要性:高)
- 如何以有效率且适当的组织架构来撰写报告
4. 考场实战:
这次PA的主题是预测交通工具事故的分值高低 (高分代表该事故严重、频率高)。
题目给了大概十多个变量,包含一天的时段、天气、路的特征 (十字路口、高速公路)、路面材质…等。
跟Dec, 2018最大的不同是以前不给太多指引,过去整份报告是由考生自己发挥。
但我猜SOA评卷者因为看到了太多种答题形式、且很不容易抓到给分的点,
因此这次改用一个一个Task问答的方式,
明确告诉考生Step 1该做什么、Step 2该做什么……。
整体而言对于考生是相对容易的。
前面10个task每一步都有关连,一个步骤一个步骤做下来,
画了很多图找relationship,
用到了GLM、PCA、Ridge Lasso Regularized Regression,
并于最后一个task写Executive Summary。
相似度部分,我觉得跟Hospital Readmission框架算蛮像的,
R Code量给的也很充足,只要根据自己选择的变量状况改写一些部分。
最大的难点我认为有两个:整体时间掌握与写到SOA要的点。
5小时15分钟写11道题,相当于每30分钟就要做完一题,
亦即,30分钟内要读该题 + 写该题的Code + 写该题的Report,重复这件事情11次。
(考试期间可以去洗手间,但是时间不会因此而暂停)
另外对于母语非英文的考生,在限制的时间内写出精炼扼要的报告也是一大挑战!
考试环境方面,键盘会锁住使用Alt + Tab来切换视窗,
因此如果跟我一样是个快捷键重度使用者,建议先看Syllabus上SOA把哪些快捷键禁止掉。
此外,听过一些考友反映考场的键盘不是很好打、电脑跑R非常卡 ,
这些问题我自己没有遇到,但建议如果可以,还是尽量选大城市的考场,
机器设备上会比较没有疑虑。
毕竟这科金额那么高、总不会希望出现非预期的状况。
最后,向每一位连续考5个多小时考试的战友致敬,
也感激主管让我请很长的考试假、
感谢同事兼战友们在群组无私的分享、周末约唸书督促进度,
希望大家都能一次通过!
作者: etshcoav   2019-06-16 12:08:00
推用心分享
作者: lonlyman0813 (Kile)   2019-06-16 21:43:00
作者: fday   2019-06-17 22:14:00
感谢分享
作者: c10121 (阿俊)   2019-06-21 10:12:00
作者: callTM (TMD)   2019-06-21 23:52:00
所以硬吗?
作者: love113w (free)   2019-06-22 09:51:00
谢谢心得

Links booklink

Contact Us: admin [ a t ] ucptt.com