这是一个很有趣的话题,不过先不要下结论
我目前在新西兰的一家线上信贷公司,讲潮一点就是FinTech
从早期P2P到今年因为想要当金主的太多,四月的时候正式停止散户的金主
现在出钱来借的反而都是银行基金信托等等...
至于借款人所有的流程都在网络上,从一开始的身分审查,到财务评估等等
我们用第三方服务审查身分和连结信用联征中心调阅个人信用资料
通过身分审查后客户授权我们到个人银行帐户调阅过去一年交易资料
最后我们评估客户的信用指数,贷款利率和金额然后通过贷款
在假设一切资料都足够的情况下从申请到拨款全部都是线上系统处理
资料产生除了客户个人资料和银行交易资料外,还有联征中心提供的信用纪录资料
此外还有前台第三方服务的资料,像是我们会用全世界流通的Email侦查金融犯罪的服务
或是根据客户提供的地址调查该地区平均各项消费的指数,收入,教育程度等等
此外,我们也撷取客户在使用前台服务的时候产生的各种Cookies
来研究各种用户体验和行为,
这些资料我们现在大部分用在两个模型,第一个是用来衡量客户倒债的机率来评估风险
结果就是计算最好的利率和贷款额度,第二个跟Google合作,
我们预测该客户能提供公司的利润然后即时传送结果给Google,
Google在即时用他们的算法搜寻最佳的标的放送广告提高点阅率
这个合作的模式让我们公司去年Marketing的Return提高超过150%,
也就是说每花一块钱的数位广告能够提升传统Google Search的1.5倍效益
这些资料量大不大?其实很恐怖...一个人一年的银行交易资料就是数千笔
一万个人就是上千万或亿笔,加上联征各种金融产品两年的纪录,前台网页Cookies,
第三方服务的资料等等,还有Real-time data的特性等等...
我想讲的重点是现今的资料科学涵盖很广,要把东西做出来很多时候都是从零开始
没有资料就去抓,抓回来就要想办法让它能用,什么分析模型都是建立在
有整理好的资料下,再来就是资料分析是很吃Business Domain的
很多时候你要面对的都是有决策的管理阶层,他们不太在乎你用的东西酷不酷炫
而是你能不能回答他们的问题,举个例来说因为COVID-19很多人失业或是被减薪
这个时候就会申请Hardship延迟付款,通常时效是三个月或六个月,
疫情至今很多Hardship逐渐到期,我们公司会主动调查客户的财务状况
可是因为这个疫情没有人有经验,时效上为了速度没有办法等研发前台功能
大家都用Google Sheet来Team Work,上面就希望我们能够抓Google Sheet的资料
连结数据库来做即时资料视觉报表,就这样
Google Service Account/Google Sheet API/Python/Snowflake/Tableau/SQL Agent
一天干出一套即时报表让上面的可以随时因应现今的状况来决定Hardship的政策
前线的客服继续用Google Sheet做他们的工作,老板们可以在Tableau上看着图做决策
至于我们就快快乐乐地继续领我们的薪水~~~
这些在大公司因为制度和官僚不太这样闪电式的发生,只有像是在我们这种相对小型的企业
才会这样搞,我们组只有三个人但是包山包海,我觉得这种工作其实也蛮有趣的