Re: [情报] 苹果新的照片审查机制

楼主: PopeVic (ㄅㄧ)   2021-08-08 23:40:04
原文恕删
因为觉得儿童色情及用户隐私是相当重要的议题,但使用者对于其技术的误解容易造成议
题失焦,所以希望透过这篇回文抛砖引玉吸引更多人的讨论,也恳请各位大神对于我说错
的地方不吝指教QQ。
在讨论运作方式前,先来看看几个技术文件提到的大前提XD
1. 苹果不会知道任何 unmatched 照片的任何资讯。
2. 除非到达一定的阀值,苹果不会取得任何 matched 照片的 metadata 或视觉资讯。
3. 系统误判的机率非常的低(文件下方说误判帐号的机率是一兆分之一),且每个被点
名的嫌疑帐号都会被人工审核后才回报给 NCMEC。
首先,先从官方的技术文件来了解系统的大致的运作方式。苹果并不是单纯的用
AI 影像辨识的方式侦测,而是在先本机取得图片的 NeuralHash 值后跟数据库中已知
的杂凑值比对,且比对的动作是在本机执行。比对的结果也会经过加密后才上传到
iCloud,故在解密之前连苹果也不知道比对的结果与内容,要直到达到一定的阀值后苹果
才会将 matched 的照片解密并将帐户回报给 NCMEC。其步骤可以参考下方图片。
https://imgur.com/Cwn2828
那么,这个做法跟单纯的 AI 影像辨识究竟有何不同?有人会误以为苹果是运用大量的儿
童色情图片训练出一个分类模型来判断照片是否属于儿童色情。然而,苹果并不是用这样
的方式来判断图片“像不像”儿童色情,其技术中的神经网络只是用来提取图片的特征值
(描述符 descriptor),特征值经过杂凑后再与“已知的”非法图片进行比对,而匹配与
否是看有无与已知的图片“近乎相同”(nearly identical)。所以它的概念比较
类似以图搜图,而不是 google 相簿的场景/人物辨识。故重点在于已知的数据库内容
,理论上要明确被列入数据库的非法照片才有可能 match。
至于到底什么样的照片叫做“近乎相同”?根据苹果的技术文件,原始图片即使
经过轻度的裁切、变形、灰阶化、改变分辨率,甚至转档,都会被视为与原图近乎相同
,换句话说,修改后的图片会与原图产生相同或相似的杂凑值。下图即是技术文件内
的例子。
https://imgur.com/nRmh7z5
但是,即便两张图片视觉上看起来相同,它们依旧是不同的两张图片,怎么会产生相同或
相似的杂凑值?这有两个关键的地方,其一是提取图片描述符(descriptor)所使用的神经
网络。从文件可以得知,苹果使用自监督学习(self-supervised training)的方式来训练
模型。模型的 input data 非常简单,共有两种组合,第一种是由原图与稍微修改的原图
形成的组合(original/perturbed pair);第二种是由原图以及一张与原图不相同的图片
形成的组合(original/distractor pair)。而模型的目标是遇到相似的图片组合时产生相
似的描述符,反之在遇到不相似的图片组合时要产生不同的描述符。总之,这个神经网络
被训练成在遇到近乎相似的图片时会产生相似的描述符。
然而,有相似的描述符还不够,第二个关键是取得描述符后会使用 LSH (Locality-
sensitive hashing) 算法进行杂凑,这部分请参考此篇 #1X3huscy (MobileComm) ,
简单来说相似的输入值会有高机率被 hash 到相同的 bucket,这就是为什么近乎相同的
图片会产生相同的 NeuralHash。
以下是几个我觉得很有趣问题,也附上我的看法,如有说错请大大多多指教
Q1: 苹果要怎么判断照片是未成年的?如果自拍小 GG 会不会被误判?
A1: 如第一段所述,苹果并不是用 AI 来判断图片“像不像”未成年,所以图片看起来像
不像未成年并不重要,重要的是有无与数据库匹配。
Q2: 家长拍摄自家小孩的照片会不会被误判持有儿童色情?
A2: 其判断的重点在于已知的数据库内容,除非家长拍的照片被列入数据库,不然理论上
不会因此误判。
Q3: 那么二次元的部分呢?
A2: 如同Q2,除非哪天 NCMEC 把二次元视为儿童色情并将图片列入数据库中,不然不会
因此误判。
Q4: 废话这么多?所以苹果到底有没有扫描且看过我的相簿?
A4: Well..yes, but actually no。苹果确实在“本机”扫描了图片,但是扫描得到的描
述符、NeuralHash,与判断结果都会以加密的方式上传到 iCloud,所以除非是超过阀值
而被解密的照片,不然苹果不会知道任何 unmatched 图片的 metadata 或视觉上的讯,
也就是说,苹果并没有“看过”你的照片。
Q5: 这样看来苹果有解密照片的能力,那加密不就是唬烂的吗?
A5: 该加密技术是采用 PSI 加密协议(原理好复杂我也还没完全看懂XD),但就我的理
解,苹果解密图片需要两把钥匙,其中一把钥匙为服务器持有,而另一把在本机计算
NeuralHash 时产生,然而,本机所产生的钥匙只有在图片 matched 时才是有效的钥匙,
换句话说,图片在 unmatched 的情况下本机产生的钥匙是无效的,所以苹果没办法单方
面解密照片。
总结来说,我觉得苹果这个做法在保护未成年的部分是立意良善,也尽可能做到维护使用
者的隐私,但仍有几个需要探讨的点:
1. 苹果如何保证这个机制只会用来侦测儿童色情?这整个机制最重要的部分就是数据库
的内容,只要放入数据库的照片就能够被侦测到。也就是说,如果有政府单位或是其他组
织要求在数据库放入其他照片,那么这个机制便可能沦为政府内容审查的工具,苹果要如
何保证这点?
2. 继然被点名的帐户会经过苹果的人工审查,那么苹果是否会保证审查人员的心理健康
?且人工审核时审查人员是否知道照片与帐户持有人之间的关联?
3. 所有机制都会有误判的时候,那么遇到 false positive 时会如何处理?
楼主: PopeVic (ㄅㄧ)   2021-08-08 23:43:00
第一次发长文,排版有点混乱,敬请见谅QQ
作者: IMISSA (空中ブランコ)   2021-08-09 00:17:00
推一个
作者: ZnOnZ (最亮的星)   2021-08-09 00:17:00
先推推再看
作者: tomap41017 (绝梦)   2021-08-09 00:21:00
作者: jaytt (悠悠)   2021-08-09 00:24:00
作者: azbx1271 (azbx1271)   2021-08-09 00:25:00
作者: Two4   2021-08-09 00:50:00
Reddit 有在讨论苹果这做法确实是扫瞄 iPhone 本机的图片,这跟苹果是不是真的“看过”是两个问题。有看法认为今天你苹果可以因为美国法案而监控使用者手机内的内容,那苹果以往强调的 Privacy 将成为笑话。加上苹果说会依不同国家的法律规定来调整做法,那在中国会发生什么事情?
作者: zxc654033 (啦啦啦)   2021-08-09 01:02:00
专业推
作者: georgeyan2 (是慎平不是甚平)   2021-08-09 01:03:00
专业推,不过觉得儿童色情监管已经整个歪掉了本来是立意良善,现在是扣个帽子就直接吃光你人权
作者: ishuen (小小宇)   2021-08-09 01:28:00
跟台湾有关系吗?也是觉得为了极少数犯罪者监控全使用者不妥
作者: Subscript9 (暱称什么的好难取)   2021-08-09 01:40:00
专业推,我觉得这个技术好神奇喔,经过后制的图片Hash值还能跟原本的相同而且完全不经手AI,无法想像
作者: Lin725 (伞蜥)   2021-08-09 02:08:00
推 专业
作者: YanYain (炎魔幻武 燄)   2021-08-09 02:32:00
纯嘘苹果自己号称最保障客户隐私却自打脸
作者: yotama12005 (amigo128)   2021-08-09 02:41:00
专业推,不过变态犯罪根本不会因为有审查就能减少
作者: tinyrain ( )   2021-08-09 02:56:00
作者: gonna01 (Six)   2021-08-09 02:58:00
还在嘘苹果保护隐私的只能说伟哉
作者: YanYain (炎魔幻武 燄)   2021-08-09 03:26:00
楼上这么不介意建议以后你家门都不要关,攘别人有事没事都进去检查不用搜索令
作者: LonyIce (小龙)   2021-08-09 04:45:00
我有疑问,你虽然说是用已知资料去做特征值比对,但这样已知资料里面还不是一样要有儿童色情图片才行吗?没有一开始的儿童色情图片,要怎么继续抓出后续的资料?结果不是跟原本一样,只是换个说法。二来是,你说用特征值比对,但google搜寻除非有一样的图片,基本上搜寻的图片常常出入很大,而大家的照片又不可能一样,你说这样失误率会很低,我抱持的疑问?同上,如果失误的时候,一样还不是要人工审核,这样不就一样侵犯了隐私?基本上,不管再怎样强调没有主动去浏览,但监控跟有能力去调阅,还是侵犯他人隐私啦。以Google那种失误率来看这技术,我觉得应该没有家长愿意自己小孩的照片有可能被调阅吧?
作者: whatzup1124 (我是干嘛)   2021-08-09 05:10:00
好奇讨论一下,我有个想法是使用GAN来产生儿色图的特征值,然后再用此来跟客户hash值进行比对,这样有搞头吗?
作者: RaiGend0519 (Named RaiGend)   2021-08-09 05:14:00
意思是我要上传iCloud还得消耗我机器的算力
作者: neomaster (Nelson)   2021-08-09 05:59:00
本机是指消费者的手机,而不是icloud?如果是,这合法?
作者: domlzchen (交大神之子)   2021-08-09 06:40:00
作者: yahappy4u (yo ya ha)   2021-08-09 07:21:00
推 防治儿童性侵害应该可以用其他方法,不需要这样侵害隐私吧
作者: pm2001 (做个盾牌眼球兵吧)   2021-08-09 07:41:00
其实就只是特征比对在使用者手机跟在远端系统做的差别
作者: zxzx8059 (zxzx8059)   2021-08-09 07:54:00
特征值来源ㄏㄏ
作者: xdccsid (XDCC)   2021-08-09 08:08:00
那假设我身为父亲,有些场景需要拍幼年子女的脱衣照给医师查看,这样被苹果看到到底?如果因此需要人工审核,拿我小孩裸照还不被看光,不知道是谁侵犯谁…
作者: IMISSA (空中ブランコ)   2021-08-09 08:13:00
一堆人的质疑原PO Q1~Q5不就回答了....
作者: LonyIce (小龙)   2021-08-09 08:17:00
好笑的点就是在Q2阿,只敢说理论上。但如果照原po说的跟以图搜图是类似原理,但以图搜图本身就错误百出,会不会误判?准确度多高?Q5又表示被判定是非法图片后,就可以人工审核立意是好的,但这不足以也不能当成侵犯隐私的理由。
作者: Two4   2021-08-09 08:27:00
我认真觉得自己手机内的东西不该被扫瞄审查,苹果这样做确实会影响以后我要不要继续买苹果产品的意愿。等著看戏。
作者: berserkman (to be brave)   2021-08-09 08:56:00
所以苹果会消耗手机电力进行照片分析运算,并且上传iCloud,那如果照片只放在手机端不存iCloud, 是否就不会上传(仍然会消耗手机运算能力及电力?)?
作者: pSeRiC ( )   2021-08-09 09:58:00
专业推
作者: nooin (在火星养企鹅的熊)   2021-08-09 10:32:00
人工审核需要法源依据,苹果不是执法单位会有争议..另外最大的问题却是就是数据库的内容谁决定..
作者: hTCone5566 (霸气)   2021-08-09 11:10:00
问题应该是在于数据库吧如果放了政府想找的其他资料苹果不就成为帮忙政府监控的帮凶了?谁能确保数据库内容的真的只有儿童色情?
作者: radiodept (大学是要读几年?真废物)   2021-08-09 11:15:00
“阈值”O “阀值”X
作者: BlueSat (BlueSat)   2021-08-09 11:32:00
我是不希望手机被这种事情额外消耗资源去比对
作者: baby0816 (min)   2021-08-09 11:57:00
专业分享给推
作者: l11k755013 (77777777777777777777777)   2021-08-09 12:07:00
google做=》广告公司收集资料,没有隐私。apple做喔=》利益良善保护未成年,没有隐私侵害问题。我觉得这个双标很可以喔,对了。我不是针对这篇,这篇说明的很详细,是篇好文。只是同样的文套google身上,嘛也就那样。
作者: homelife (SKY)   2021-08-09 12:49:00
那些照片苹果能解密都是苹果自己说的,这就是问题用什么算法加密并不是重点另外目前的资料是说如果有照片被认定Matched并且被传回苹果,使用者并不会知道。这绝对跟强调隐私的广告反著走最理想的加密方式一直都是"只有我自己有钥匙"Apple过去几年强打隐私、避免其他公司获取使用者资料,但是自己的服务就是不实作端对端加密,苹果自己一直都在持有使用者资料,只是话讲得比较好听而已。现在开始终于有动作了,如果没经过你同意直接就开始了审查你照片的动作,那未来这能推展到什么程度?FB for iOS连我在哪都不知道了,现在你大苹果直接看我照片,也不问我是否同意,以后是否要审查我讯息?
作者: yantingtw (彦)   2021-08-09 13:21:00
推资讯
作者: InInDer4Ni (泥硬硬DER)   2021-08-09 13:29:00
讲这么多就是侵犯隐私来扫你的照片 谁知道哪天会不会偷用
作者: FirstClass (FirstClass)   2021-08-09 14:01:00
所以我实际自己去偷拍未成年少女上厕所的话,只要我不分享到网络上,也不会被侦测到了?
作者: Subscript9 (暱称什么的好难取)   2021-08-09 14:10:00
我说明一下,NCMEC那边有一个数据库,搜集了当前已知的非法照片,苹果利用这个数据库对每张照片生成HASH值,再去比对您手机里面的照片,是否有HASH值符合的照片,换言之不在那个数据库里的照片,也就是您所述为了医疗所个人拍摄的照片,并不会被侦测到。
作者: Medic   2021-08-09 15:08:00
是不是说 即便没有同步 也已经在本机检查是否 match 而同步就直接上传这份结果了?
作者: eon4 (崩星咆哮砲)   2021-08-09 15:34:00
今天扫描儿童色情 明天扫描你有没有偷说党的坏话
作者: Murasaki0110 (麦当劳欢乐送)   2021-08-09 15:44:00
只能扫DB里的有什么用? 抓散播的人而已
作者: andy5656 (andyandy)   2021-08-09 15:48:00
基本上也是AI影像辨识 现在训练模型也都会用self-supervised 只是apple没有把数据库的data 拿来fine-tune而已
作者: LonyIce (小龙)   2021-08-09 16:01:00
S 大说的还是不足以解释误判的情况,只是重复叙述了一次内容而已。而且拿那个举例也很怪,最生活化的应该是,我拍我家小孩没穿衣服乱跑、洗澡的照片,跟数据库里罪犯拍别人小孩类似情境的照片,那些数值可以判定这些?更别说其他误判成完全不相干东西的情况了,一直说数值会判定,避开误判的情况有什么用?更别谈撇开这些,根本的隐私权问题,不管你有什么理由,没有人有理由被监控。
作者: wind50321   2021-08-09 16:06:00
监控全用户就是已经默认 你有可能是犯罪者了吧
作者: lylu (理路)   2021-08-09 16:13:00
问题应该还是在要如何说服使用者误判的情况 另外也很好奇这
作者: pooty (乡民)   2021-08-09 17:29:00
反正苹果会扫描你所有的相片,结案
作者: Two4   2021-08-09 17:46:00
苹果负责一点就做个开关让使用者自己决定愿不愿意接受侦测, 少打一次苹果自己的脸。
作者: nimab (你妈比赞!)   2021-08-09 18:58:00
你的文很专业 但加密方式安不安全从来不是重点
作者: lavign (一悬命部队)   2021-08-09 18:58:00
它还是读取了原始图片内容
作者: nimab (你妈比赞!)   2021-08-09 18:59:00
你能保证苹果除了加密之外没对你的资料做其他事吗?苹果从来不会公开他对使用者的资料做什么 但其他在iOS上的公司却都得公开透明 这才是最恐怖的其他公司有没有侵犯用户隐私苹果说了算 但苹果自己是裁判却能审查用户隐私资料 还不跟你说详情
作者: Ivudaisuki (イヴ大好き)   2021-08-09 19:16:00
推好文但真的搞不懂为什么苹果要因为少数人侵犯所有人的隐私而且单纯比对数据库的图片根本无法遏止偷拍未成年少女吧自己拍自己存 不散播就进不了数据库 也就不会被抓这的搞不懂苹果到底在干嘛苹果这个一搞 等于自己毁掉iCloud强调的安全跟隐私不仅让人质疑开了这个先例是否会是潘朵拉的盒子况且根据目前大家的讨论这个政策造成的质疑跟担忧明显超过正面效益一方面在发表会强调自己多重视隐私另一方面却又干着侵犯隐私的事坦白讲这的蛮失望的(但我也谴责儿童色情)也会考虑要不要继续使用iCloud备份照片了另外我之前有看到文章说只会适用在美国地区不知道是全球都适用还是只有美国?
作者: Two4   2021-08-09 19:23:00
目前这是因应美国法律才有这个计画,仅适用于美国 iPhone使用者。但苹果说会因应不同国家的规定来施行,所以大家可以想想碰到中国会发生什么事。
作者: ho83leo (LWHo)   2021-08-09 19:31:00
推,合理。
作者: MonkeyCL (猴总召)   2021-08-09 20:01:00
谢谢苹果帮我检查照片
作者: hoos891405 (我也许把你忘记)   2021-08-09 21:33:00
iCloud 存照片本来就很烂了,现在更不想存了
作者: cities516 (安安路过)   2021-08-09 21:41:00
推整理 看来这系统对于偷拍犯还是没屁用啊而且看起来很容易成为政府的审查工具没错
作者: jtrus0520 (台风假放半天)   2021-08-09 21:52:00
妈妈拍自己儿子小时候露JJ看来也危险了
作者: sunsptt (我是一只玛瑙水母)   2021-08-09 21:56:00
你的意思是苹果有一个塞满儿童色情的数据库可以拿来比对吗
作者: hoos891405 (我也许把你忘记)   2021-08-09 22:44:00
你自己拍的照片没在数据库里面不会有事但苹果有个h图数据库这件事情还是很好笑苹果这样搞超级脑残,而且很容易绕过..人家不要使用iCloud 或ios就好了,而且如果用mega分享照片,直接用app看你也不能怎么样。但苹果这要搞就是赔掉商誉,搞不好这功能还会让ios背景更喷电还不如学日本那样强制拍照要有很大声的快门音还比较实用一点点
作者: makairin (AAI)   2021-08-09 22:54:00
这个不是没不没事的问题,大部份都不是被法院认定的嫌疑犯,没有理由把储存在线上空间的资料给人看,谁决定数据库特征码就不算隐私的一部份。这种搜索是有罪推论的,使用者必须开放自己空间的特征码证明自己“无罪”
作者: ryuter (旋光の轮舞)   2021-08-10 01:02:00
台湾应该马上会跟进了.
作者: square4 (卡哇伊)   2021-08-10 10:15:00
作者: e04bank (上海生奸汤包)   2021-08-10 10:53:00
中国:Interesting
作者: Doard (是o)   2021-08-10 12:47:00
阈值啦 干
作者: berserkman (to be brave)   2021-08-10 20:52:00
中国:乐观其成,感谢苹果
作者: sixf0ld (coldrain)   2021-08-10 21:26:00
美国政府使用儿童色情的名义扩权早已行之有年现在是比对已建档的儿童色情影音但在技术跟程序上,有什么能阻止/避免政府or苹果拿其他任意项目的影音来做比对,以得知用户有没有持有任意图片?eg:中国政府比对找出持有64坦克人照片的用户先打预防针 我坚决反对儿童色情另外,github上已经有人实作了可以产生相同neural hash的方式 虽然不知道苹果的实际implementation,但显然误判绝对是会发生补推补补
作者: fattit (法滴)   2021-08-10 22:20:00
这年头你总是要把资料交给某家公司的 除非你什么都自己架差别只在你交给谁了 google也对gmail, google pay的交易内容扫描阿 美其名都立意良善 真的要绝对隐私 请自己做手机
作者: hanhsiangmax (陪我去台东)   2021-08-11 00:33:00
推推~~~是既然唷~
作者: george12345 (陈)   2021-08-11 06:27:00
看起来不是拿图片binary去hash 是经过一些简单的NN得到feature去跟数据库里的比对,这些feature 对人来说就是一堆数字而已没什么意义,所以应该不能算看过,而当feature跟数据库里的非常相似时才会上传照片得到原始图档 以上只是猜想
作者: makairin (AAI)   2021-08-12 17:08:00
能被拿来做比对就不能算无意义的数字,用户空间内任何一段数据包含客户删除档案的碎片都应属于个人资产
作者: Waterpig (waterpig)   2021-08-12 18:13:00
不管你转了几层 你先假设所有使用者是罪犯 利用使用者本身的资源去做运算怎么想都有问题 更别说会有误判需要人工介入部分 凭什么我没犯法的照片因为你的误判就给你看?
作者: lirpassmore (里尔-帕斯魔)   2021-08-12 20:28:00
苹果就是假定所有人都有嫌疑才会去把照片跟数据库扫描阿!这点就站不住脚了
作者: Ferscism (In The End)   2021-08-14 13:22:00
为了防止儿童色情一个公司可以看东西那政府为了维稳可不可以随意搜索你家呢?
作者: davidyun ([ 慢! ])   2021-08-14 23:39:00
好文推!

Links booklink

Contact Us: admin [ a t ] ucptt.com