[心得] DaaS 数据产品开发实务分享(UNH3O PM)

楼主: annedoo (萧安)   2020-04-06 22:10:07
前阵子参与 Women in Data Science 举办的线上分享会,
整理了当天的活动笔记与心得~
有图好读 medium 连结:
http://a0.pise.pw/RNR57
讲者介绍 - 杨晴(Steff)
现任 AI 新创 UNH3O 产品经理,带领产品 Engaged.AI 成长并负责从 0 到 1 的产品开发,为超过一万个亚洲品牌提供 Instagram 数据分析服务。曾在社群数据分析顾问公司 QSearch 担任 UX Engineer Lead,过去经历研究端、设计端、技术与开发端的历练,使她对于产品设计与开发的方法论与流程都有深刻的掌握。
正文开始
社群行销在现代的行销方法论中是很重要的一环,消费者对于品牌、服务、产品的接触点与转换行为都有机会透过社群媒体发生。UNH3O 的目标是分析社群媒体上的使用者足迹,并让品牌可以去驱动和影响消费者的消费行为,包含增加触及量、提升品牌认知、提升转化率等等。主力产品分别为 Engaged.AI 和 Emerged.AI。
Engaged.AI:B2B(Business-to-Business)、SaaS(Software-as-a-Service)产品,主攻 Instagram 数据分析,协助行销人员掌握行销成效。
Emerged.AI:B2B(Business-to-Business)、DaaS(Data-as-a-Service)产品,可以看作是 Engaged.AI 背后的数据引擎,不只告诉行销人员用户行为与轨迹等基于事实的描述性分析(descriptive analytics),更会透过机器学习的方法,从表面的结果挖掘背后的洞见,进而提供客户达成目标的建议(prescriptive analytics),用数据来驱动行销策略。
▍什么是 DaaS 产品?
DaaS(Data-as-a-Service)数据即服务,是一种让客户透过数据本身来体验产品价值的服务形式。DaaS 产品建立在其数据可以按需(on demand)提供给客户,不受数据提供者和使用者之间的地域、组织差异而有所影响。
在设计与开发 DaaS 产品时要注意这三个元素:
1. 获取(Acquisition):如何取得资料?
2. 转化(Transformation):如何从资料中产生出有价值的资讯?
3. 璆I(Delivery):如何将数据交付与呈现给使用者?
▍数据获取(Data Acquisition)
对 DaaS 产品来说,能够持续拿到原物料才能有稳定的产出。常见的三种获取数据方法如下。
方法一、数据合作(Data Co-op、Data Coopereation)
和用户进行数据合作,由用户来提供数据给产品,而产品提供给用户数据分析的服务,随着用户数的累积可以获得愈来愈多的资料。例如 Clearbit、HubSpot。
方法二、商业合作(Business Development Deals)
透过与客户签署长期的业务合约来取得资料,在数据顾问公司中很常见。随着服务愈来愈多客户后,能够搜集愈来愈多的资料,增加数据数据库。
例如 Datalogix 透过跟不同车厂合作,帮他们做生产线、采购、交易上的数据整合,借此得到大量车子类的资料后,进而推出数据服务的副产品。
方法三、公开资料(Public Data)
直接用爬虫的方式取得公开资料。例如一般的 Search Engine 也是用爬公开资料的方式来提供服务。
Emerge.AI 主要以数据合作、爬公开资料这两种方式来蒐集数据。数据合作的方式主要是从另一个产品 Engaged.AI 所服务的一万多个客户提供的资料来进行分析。
而公开资料的部分,以 IG 贴文为例可以得到以下资讯:
- 基本资讯:帐户名称、地点、发布时间、赞数、文字内容、#hashtag
- 视觉:图片
- 互动:留言内容、在贴文下面留言的用户图像(目标客群)
▍数据转化(Data Transformation)
单点的资料很难产生意义,但当把不同的数据结合在一起,就有机会创造综效并发现洞见。
举例来说,假设你身为迪士尼的资料科学家,获得“每天的入园访客人数”本身并不是一个有意义的数据,但若可以将访客数跟天气两者做比对,就有机会得到新的洞见。例如:下雨天的入园人数是否有改变?这代表什么?我们可以针对这个发现提出什么行动?
回到 IG 的案例,“互动率”高低本身没有意义,但若能比对出哪些要素出现的时候互动率高、成效好,这个资讯才会变得有意义。
一、从问题出发
从客户提出的需求出发,并透过多问“为什么”来了解需求背后的细节与原因。
举例来说,客户提的需求是“我们想要在 IG 上找到拥有高消费力的帐户”来做更深度的品牌活动或 VIP 会员专案。这个需求与描述词汇非常模糊,也没有一定的标准可以参考,这时可以先反问客户“你们过去是怎么判断和定义高消费力呢?”并做深入的访谈。
我们在访谈中发现,很多品牌客户都很擅长用“感觉”来回答问题——当你拿两个 IG 帐户给客户比较,他可以直觉判断出哪一个比较有钱;但当我们要客户明确描述做出这个判断背后的原因,他们有时候却答不出来。
跟着客户一起将问题往下挖后,我们以下这些数据点转化为高消费力标签(label):
- 地点:很常出国、在很多不同的国家打卡
- 视觉:照片中很常出现名牌的 Logo
- 视觉:照片视觉的呈现的很有质感、愿意花时间经营自己的形象
- 文字:文字内容出现高级品牌名称
基于以上的访谈与问题定义结果,接下来转化数据的流程大致如下:(1) 从问题出发、(2) 用户研究与假设、(3) 原型制作与假设。
(1) 即上述跟客户讨论“高消费力帐户”定义的过程、厘清客户需求。
(2) 用户研究与假设,则是根据研究结果建立不同的数据模型假设,在执行的过程中扣紧目标“判断这个用户是否属于高消费力”来提出许多不同的假设与实验结果,若有较适用的模型则会在下一步实际运用在真实资料上。
(3) 原型制作与假设,即将达成率最高的模型应用在实际的数据上。
【案例延伸】撷取自本场次 Q&A 的讨论 - 如何执行与验证准确率?
一开始用户使用的形容词是“贵妇”,“妇”可以归类为女性,但是“贵”呢?因此第一步是要透过与客户沟通将发散的名词定义清楚,经过一番讨论才得出“高消费力的女性”这个框架。接着,如同上述,去了解过去他们是怎么用直觉去判断“高消费力”帐户。
我们将这个“客户的直觉”训练成一套 AI 模型,让电脑去 label 几百份资料、也让行销人员人工去 label 这些资料,比对看看我们是否真的有将这些行销人的直觉成功转换成 model 并确认是否能得到准确的预测结果,用人工智能的方式去验证一些质化的内容。
从技术角度来说,很多时候我们会用非监督学习(unsupervised learning)的机器学习方式,亦即训练模型的过程中不会让人工介入,但因为模型与算法的机制有时候很复杂,因此也只能针对跑出来的结果去判断好坏,再讨论需不需要换其他模型、算法或持续调整。
二、让数据有意义
在前面定义问题的阶段,我们已经取得共识,要去观察打卡国家、视觉呈现、文字内容等 IG 贴文的资料,但是“常出国”这个资讯和单纯拥有“打卡地点”的原型资料是有落差的,所以会需要做一些前置作业(data preprocessing)将他们转换成可利用的形式。
举例来说,将打卡地点转换为国家的标签、将视觉上的 logo 撷取出来成为标签、将文字中的名牌名称转换为标签。
数据本身如果没有经过任何预处理,很难与其他数据结合、产生进阶的应用,所以我们会预先对数据进行处理,方便未来要解决用户问题的时候可以直接使用。
以 text -> entities 在文字内容中出现名牌为例,在 IG 上面的文字资料、文字量相对于过去的部落格文章是相对较少的,部落格文章通常一篇有近千个字,然而 IG 贴文可能只有 50 个字,我们要想办法从这 50 个字去理解这篇贴文的讨论主题与重点,包含是正面还是负面的讨论。
当我们直接去看整个贴文时很好理解,但当经过 tokenization(分词、标记化)的流程去处理资料,脉络与意义会在这个过程中流失掉,只看 tokens 的单字很难理解原意,只能透过关键字片面的理解部分内容。
为了解决这个问题,团队在做资讯撷取(information extraction)将文字转换为 tokens 的时候,还会再做第二层的处理,跟行销人员、客户共同制作辞典,将这些 tokens、labels 透过语意分割与标注(semantic labeling)转化为更有意义的资料,让用户来帮我们判断哪些资料是有意义、需要独立被分出来的。
▍数据交付(Data Delivery)
常见交付数据给客户的的方法包含 APIs、Batch File、Integrations、Self-Serve UI、Dashboard 等。以 Emerge.AI 为例主要有三种方式,分别为可让客户独立操作的接口、跟 Engaged.AI 串接合作、以及产出客制化数据报告给特定客户,搭配顾问服务协助客户解释资料和挖掘洞见。
不论是哪一种数据交付形式都会面临到共同的议题 — — 如何透过优化与迭代让数据产品变得更好。
最难的是如何选定优化的目标,这部分我们也是从使用者出发,让用户来告诉我们!因此除了前期的用户研究外,我们也建立了一套让用户能主动给产品回馈的流程。
如果用户在系统中看到他们认为不正确的数据,就可以主动在产品内检举并提出原因给团队,团队收到后就会重新训练模型、重新执行,再看看新的资料是否有提供用户合理的数据、得到正面的回馈,透过这个与用户合作的正向循环来做更深入与更准确的 labeling。
这些训练过后的模型如果只是在实验室中测试,跟实际的情境通常都会有些差距,因此跟特定产业的使用情境接轨与持续互动,才能让资料真正的产生价值,让产品愈来愈好。
以上。
当天 12 场演讲的笔记精华,请参考:http://a0.pise.pw/PFUP4
作者: yuanyu90221 (菜菜鸟)   2020-04-07 23:54:00
感谢分享
作者: Bonjwa (嘴砲王退散!!)   2020-04-08 07:11:00

Links booklink

Contact Us: admin [ a t ] ucptt.com