※ 引述《benjamin99 (BigPaPa)》之铭言:
: 1. GDPR 的适足性,甚至是国内是否该完全班照规范来订都是有持续在讨论的;你不知
道
: 2. GDPR 架构上有没有问题?有。其中一个是因为很多领域如医疗等其实很难订出全欧
一
: 3. 另根据研究,在 GDPR 实行也对产业产生冲击,有数据指出有 8% 的利润损失,其
中?
: 综上说出一个词汇给自己安个名声很简单,但实际探讨该认真讨论的面向与顾虑还是很
多
阿肥外商码农阿肥啦!
这边阿肥作为专业研究员还是补充一下,GDPR目前对于AI产业最大冲击就是数据脱敏的严
格程度提高。
这边说一下传统的训练模型流程就是对待学习的数据进行去识别化跟移除敏感资料后再进
行学习,这样就可以直接避免模型学习到用户个资。
不过随着GDPR的严格规范,这衍生了一个问题,像医疗、保险领域资料其实都是相依于用
户本身的,即便怎么样脱敏去识别化其实也很难不去使用到类个资训练,这也是为什么联
邦学习、机器反学习会是这几年很重要的学术研究议题。
这边科普一下联邦学习(Federated Learning)主要就是于客户云或是设备端建立模型再透
过模型跟云端主服务的大模型进行参数交换,由于传出的不是原始数据而是地端的模型输
出所以疑虑会少很多,他其实可以等效成分布式计算。不过问题就在于怎么样跟大量的数
百万台机器进行交换参数还有主模型的训练,这个到现在还是一个大问哉,而且面对现在
动不动就70B等级的AI模型怎么交换而且能保持效率也是大问哉,导致现有的联邦学习技
术存在瓶颈。
另一种就是机器反学习(machine unlearning),这应该是今年突然变得很热门的子领域(
以前做这个的都是相对冷门),他研究的方法是我就直接拿用户资料训练出一个巨量大模
型再标记出敏感资料让AI去针对敏感资料去学习化并且不要丧失从敏感资料里面学习到的
抽象概念也就是不丧失本身的性能。目前反学习有一个大问题就是灾难性遗忘,随着你要
反学习的数据变大,那灾难性遗忘就会加剧,最后AI就会丧失本身预测的能力,要怎么平
衡还是前沿研究领域。
其实因应GDPR真的还是有很多国外企业在重视,尤其是五大巨头FANNG、中国在这块很多
他们的网络巨头也投入很大量的心力,对岸政府其实也是在全力支持资料监管要建构比照
欧盟。
对于三组副总统候选人,我觉得吴还是有很好的国际高度的,当然他不是专业研究人员肯
定对于名词跟背后衍生的技术产业变化是没那么钻研的,不过还是比起其他两位只会打高
空的务实很多。