: - Hash 值: 每个档案都有一个唯一的 Hash 值 (指纹的概念) 科学家用数学保证他几乎不会重复
: 每个云端空间基本上都会在你上传档案的时候计算 Hash 值
: 为了要避免他们储存太多重复的档案
: 有两个用户上传一样hash的档案可以只存一份就好
: (例如 lol.exe 一百个用户上传到自己的帐号 存一百份根本是浪费空间)
用档案 hash 比对图片实在太不可靠了,改个 1 bit 资料就可以让 hash 不同
我觉得苹果不会做这种智障系统,否则这系统根本没用
所以去翻了一下相关文件
https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
看起来是用苹果自己开发的新算法 NeuralHash
看名字就知道一定跟神经网络有关
大意是说用一个神经网络训练过的模型,去计算照片的描述特征
最后再把特征用 locality-sensitive hash (LSH) 算出杂凑值
LSH 与一般 hash 算法不同的地方在于普通 hash 会将差异最大化
以避免相似的资料产生一样的 hash
LSH 则否,越相似的资料产生相同 hash 的机率越高
以上述文件的范例来说,直接把照片灰阶化处理也可以得到一样的 NerualHash
是很厉害的技术