Fw: [心得] FinTech Data Scientist 的日常

楼主: vivceC (vivce1994)   2020-06-20 12:23:31
※ [本文转录自 Soft_Job 看板 #1UxOyUH_ ]
作者: vivceC (vivce1994) 看板: Soft_Job
标题: [心得] FinTech Data Scientist 的日常
时间: Sat Jun 20 12:22:52 2020
Medium 网页好读版
https://lihi1.cc/kpPyw
金融科技的资料科学家到底都在干嘛!?
最近很多人对我的工作内容好奇,简单的挑几个完成跟进行中的专案跟大家分享。
这篇文章是跟我的天才好伙伴 Leo 一起完成的,非常感谢他的协助,让我的用字能兼顾
技术宅、科普到亲民,对我来说是一个很有趣的新尝试!
以下他的 medium
https://medium.com/@leo1125s
简介
跟一般 Data Scientist 不一样的地方是,我的背景是实验/认知心理学。
认知科学的训练让我在分析行为资料时能提供更多的洞见,
也更关注所谓的个体差异(individual difference)。
我主要使用的工具是 Python,工作内容横跨商业分析跟机器学习。
这次讲机器学习的五个技术跟应用,分别有
1. 用户分群
2. 信用风险模型
3. 光学字符辨识
4. 自然语言处理
5. 员工特质分析
为了方便理解,会举拍发票的产品为例子。
用户分群(Customer Segmentation)
机器学习的分群技术(Clustering),是一种将巨量资料分类成群的方法。
我们有许多产品及服务,用户使用这些产品的过程都留下了丰富的资料。
利用人工智能和机器学习的技术,分析用户使用过程累积的资料,
计算出用户的轮廓及行为模式。
有点难想像吗?
举例来说拍发票的行为就能被分成好几种:
三天捕鱼两天晒网的、每天拍五张的、拿别人发票来拍的等等 XD
这些分类用人力判断会非常耗时,甚至有时候人类会不知道该如何分类,
因此就需要人工智能与机器学习的协助。没有哪一种特别好,大家都可以自在的做自己。
因为分析的目的是让我们更精确的知道用户消费习惯。
未来就可以协助提供每位用户个人化的服务,让数据能让每个人的生活变得更好。
Clustering Python 关键字:K-means, Mean Shift, DBSCAN,
Agglomerative Hierarchical
信用风险模型(Credit Risk Modelling)
信用风险模型是大家最耳熟但也最陌生的了吧。
机器学习中的其中一个分支叫做深度学习,深度学习会模拟人类思考的模式,
让电脑做到更理性客观、没有偏误的决策。
深度学习其实不是一个新的概念,早在三四十年前就已经存在。
因为它模拟人类大脑的运算方式,被称为类神经网络。
这样的运算需要强大的硬件及算力,当时的技术还做不到,
所以早期类神经网络的应用非常的有限。
直到近几年硬件技术提升,深度学习的概念才有真正的应用。
所以我们的大脑其实是复杂又精致的东西,大家要好好珍惜使用啊~
顺带一提,深度学习之父 — Geoffrey Hinton — 大学时期的本科系就是心理学哦!
一开始就是对大脑有兴趣,想让电脑可以像人一样思考决策,才一头栽进这个领域的!
这样的深度学习能力除了用在自驾车、下围棋、也广泛的应用在决策管理,
在许多的金融决策上也开始占有一席之地。
这样的模型在金融、保险产业都时常出现,金融科技产业当然也不例外。
有趣的是,这样的模型是不断变动的,
原因是模型的许多参数会受到公司当下的发展方针、活动甚至是外部经济环境影响。
所以绝对无法说被风险模型拒绝与否,就表示一个人的信用如何喔~
Classification Python 关键字:Random Forest, Logistic Regression, Gradient
Descent, K-Nearest Neighbours
光学字符辨识(Optical Character Recognition)
光学字符辨识,也是我们常说的文字辨识(OCR),
是一个可以辨识图片内文字的技术。
实名制在科技产业已经是一个趋势!除了让我们更认识用户,
同时也代表高品质的真实用户。在实名制文件的辨识上,
英文和数字辨识的研究已经渐趋成熟,准确度也都有一定的水平,
而中文字的辨识还有很大的进步空间。
主要的原因是英文只有 26 个字母,数字只有 10 个数字,
而博大精深的中文字库则是数以万计,所以中文的辨识一直有技术上的瓶颈。
我们团队目前正在跟台湾大学合作,开发新的中文辨识,
我相信这会是一个突破性的技术!
OCR Python 关键字:pytesseract, OpenCV
自然语言处理(Natural Language Processing)
根据维基百科的定义:自然语言处理(NLP)是计算机科学以及人工智能的子领域,
专注在如何让计算机处理并分析大量自然语言数据。
NLP 常见的挑战有语音辨识、自然语言理解、机器翻译以及自然语言的生成。
电脑传递讯息的方式就像我们在电影里看到的,是由 0 与 1 组成的密密麻麻的数字。
而人与人之间的讯息传递习惯用简短的句子表达复杂且大量的资讯,
因为我们希望对方很快就能理解我们的表达。
因此讯息传递的复杂程度大概比电脑多了一百万倍吧!
自然语言处理,是希望让机器透过各种模型、人工智能技术,学习人类传递讯息的方式。
包含语音、文字、翻译甚至希望机器可以自行造句(大多数人都读得懂的那种句子)。
自然语言理解是我目前最关注的领域,
自然语言理解的技术可以让机器理解人类字句的意义,协助我们处理大量的文字讯息。
像用户拍的发票,上面有非常多的资讯,有些是较不重要的,
而有些则是重要的关键字。不重要的字例如:商家名称中的股份有限公司,
这样的泛滥字没办法带给我们更多的资讯,而牛排、锅贴、奶茶等等,
就是能让我们熟悉用户消费行为、甚至饮食习惯的重要关键字

教会电脑去判断什么是发票中的关键字、什么是可以跳过的字,
就是我们在自然语言处理中主要在做的事情。
现实生活中,自然语言处理的技术也常用在客服聊天机器人上,
当用户发问“请问你们几点开始上班”,
这样的句子会抓出重要关键字“几点”、“上班”而被归类在营业时间的问题,
而“请问”这样的字就会被过滤掉,但也许机器会把你分群到礼貌的用户,
所以面对机器时还是可以保持礼貌(笑。
不过呢,发票和客服的分析是完全不一样的,
所以就算训练出很厉害的发票自然语言处理模型,
让这样的模型去处理客服问题还是会表现得非常差,他会抓错重点,
用户也会不知道他在回什么。也就是说,如果要处理客服问题,
我们需要重新打造一个专门处理客服讯息的新人工智能模型。
题外话,“人工智能会不会取代我的工作,造成社会的失业?”
这样的问题,可以从前段内容得到答案,“不会!”。
因为机器学习的专一性,还是没办法取代多元又聪明的人类。
我们相信接下来会是一个斜杠的时代,当你拥有越多元的专业跟资源,
你在这个人工智能的新时代会拥有更强的竞争力!
而如何聪明的分配资源,让自己多元的发展,也是我们想帮助每个人达到的事!
NLP Python 关键字:NLTK, LSTM, Jieba, keras
员工特质分析(Human Resource Analytics)
什么!员工的人格特质分析居然跟资料科学有关系!?
在我们公司,我们相信团队中最重要的就是良好沟通。除了坦率表达自我之外,
我们也思考如何让团队成员更了解彼此,透过了解彼此的特质与工作习惯,
不但提高沟通效率,还能让分工更顺畅。
我与 HR 部门合作,用数据分析了解团队与成员的特质。
准备期间我们参考 MBTI 人格理论(Myers Briggs Type Indicator,MBTI)
MBTI 是目前国际最为流行的职业人格评估工具。
每个加入公司的成员都会完成这个测验,测验主要分成四个象限,
包含内向/外向、实感/直觉、理性/感性、判断/感知等分类,
测验结果也会知道大家是如何理解世界、接收新资讯。
将测验结果依照部门整理后我们有一些有趣的发现,
比如说产品跟资料科学部门都是做事理性有条理的伙伴、行销都是外向好相处的伙伴。
我们也用推荐系统的方式,依照每个伙伴的特质给予帮忙配对最适合的跨部门合作伙伴。
心理学中非常在意个体差异,把每个特体都视为独特的。而在一个组织中,
这样的独特性常常被抹灭,这是我们不希望发生的。我们非常在意每一位伙伴,
希望大家都能在舒服的气氛、用自己最快乐的方式工作。
因此我们认真的对待每一个伙伴,用心理学家的方式研究每一个人,
再用科学的方法最佳化我们的团队分工。
资料科学团队常常理性接触的数字、逻辑跟程式,
这次跟 HR 部门合作的计画让我有机会用科学化的分析人的资料,
是一件很好玩又创新的事情。
传统的企业在员工分析上重视奖酬、年资、升迁等等,
但我们关注每个人是否有找到自己的成就感,
这边我们结合组织心理学及资料科学的知识,
让每个人找到自己的定位以及跨部门的好伙伴!
Recommendation System Python 关键字:sklearn-recommender
作者: yajen (隐形人)   2020-06-21 18:35:00
谢谢分享!最近刚好有考金融科技力的考试,对资料科学家也很好奇

Links booklink

Contact Us: admin [ a t ] ucptt.com