Re: [新闻] 苹果将侦测儿童色情影像 用户上传iCloud

楼主: s25g5d4 (function(){})()   2021-08-08 01:09:05
: - Hash 值: 每个档案都有一个唯一的 Hash 值 (指纹的概念) 科学家用数学保证他几乎不会重复
: 每个云端空间基本上都会在你上传档案的时候计算 Hash 值
: 为了要避免他们储存太多重复的档案
: 有两个用户上传一样hash的档案可以只存一份就好
: (例如 lol.exe 一百个用户上传到自己的帐号 存一百份根本是浪费空间)
用档案 hash 比对图片实在太不可靠了,改个 1 bit 资料就可以让 hash 不同
我觉得苹果不会做这种智障系统,否则这系统根本没用
所以去翻了一下相关文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起来是用苹果自己开发的新算法 NeuralHash
看名字就知道一定跟神经网络有关
大意是说用一个神经网络训练过的模型,去计算照片的描述特征
最后再把特征用 locality-sensitive hash (LSH) 算出杂凑值
LSH 与一般 hash 算法不同的地方在于普通 hash 会将差异最大化
以避免相似的资料产生一样的 hash
LSH 则否,越相似的资料产生相同 hash 的机率越高
以上述文件的范例来说,直接把照片灰阶化处理也可以得到一样的 NerualHash
是很厉害的技术
作者: jason2641668 (钢球智者)   2021-08-08 01:13:00
https://i.imgur.com/Iyu9H9B.png楼上 他有一个 threshold number基本上你要iCloud里面有一堆这种类型的照片超过那个 threshold number 他才会转人工检测一张两张 有可能是误判 可是你有100张都被确诊那就合理怀疑你是有问题的100只是我随便设一个 threshold number白皮书里面有说 他们不会去学习不在那个数据库内的特征很大程度要去降误差带来的问题你的儿童色情图片不在 CSAM 数据库中在苹果这套侦测机制下 是不会被抓出来的白皮书里面有写 误判率大概是 1 in 1 trillion他有说不会训练 CSAM 提供以外的CSAM 数据库基本上就是一个儿童色情犯罪的档案库你女儿的裸照并不会无缘无故被拿去训练除非你儿女的裸照曾经被用于犯罪用途才有机会被列进去 CSAM 数据库更正是 NCMEC 数据库然后 NCMEC 提供的貌似也只有 hashes 值而已所以很有可能 Apple 也碰不到原始图片using a database of known CSAM image hashes provided by NCMEC and other child-safety organizatio

Links booklink

Contact Us: admin [ a t ] ucptt.com