Re: [新闻] 苹果将侦测儿童色情影像 用户上传iCloud

楼主: pupuliao (pupu)   2021-08-09 00:26:02
※ 引述《s25g5d4 (function(){})()》之铭言:
: : - Hash 值: 每个档案都有一个唯一的 Hash 值 (指纹的概念) 科学家用数学保证他几乎不会重复
: : 每个云端空间基本上都会在你上传档案的时候计算 Hash 值
: : 为了要避免他们储存太多重复的档案
: : 有两个用户上传一样hash的档案可以只存一份就好
: : (例如 lol.exe 一百个用户上传到自己的帐号 存一百份根本是浪费空间)
六七年前在读研究所的时候,因为主题是影像分析比对,所以有找了许多论文
我就看过几篇google 发表的论文 透过快速比对 hash 值来快速搜寻图片
论文中就提到他们把 原先比较距离使用的 两个值相减平方 这类的概念
直接改成把所有资料简化成0与1 利用 OR XOR 的方法 来高速比对
当然 论文中并没有提到 google 是如何对图片做hash的 或是 用什么方法取特征点的
但我不认为 那个hash 是单纯用来比较档案完整性的那种,一定还保留了一定程度的图片特征
资讯
例如我在实验用的厂景数据库中,就是储存把图片处理过的特征点资讯
我们在研究的 就是找训更高效率的特征点比较方式或是更精准更有效的撷取特征点
: 用档案 hash 比对图片实在太不可靠了,改个 1 bit 资料就可以让 hash 不同
: 我觉得苹果不会做这种智障系统,否则这系统根本没用
: 所以去翻了一下相关文件
: https://www.apple.com/child-safety/pdf/CSAM_Detection_Technical_Summary.pdf
: 看起来是用苹果自己开发的新算法 NeuralHash
: 看名字就知道一定跟神经网络有关
: 大意是说用一个神经网络训练过的模型,去计算照片的描述特征
: 最后再把特征用 locality-sensitive hash (LSH) 算出杂凑值
: LSH 与一般 hash 算法不同的地方在于普通 hash 会将差异最大化
: 以避免相似的资料产生一样的 hash
: LSH 则否,越相似的资料产生相同 hash 的机率越高
: 以上述文件的范例来说,直接把照片灰阶化处理也可以得到一样的 NerualHash
: 是很厉害的技术
这大概是我前面说的那个吧 反正我当时没找到相关论文,论文说用了xx hash计算
再转化成32位二进制资料
,但我相信GOOGLE也有自己的一套方法,有效率的撷取每张图片的特征资讯
我认为 这类技术对google来说并不难,他们在搜寻引擎上本来就有以图搜图的功能
而运用在云端储存功能来说可能更为轻松,他们甚至可以把每张图片的预处理工作
让各位的手机/电脑 帮你算好一定程度的资料,google 只需要去做比对即可
再说了
google 都可以帮你把照片中的 人物/场景 标记出来
或是自动帮你把多张照片合成一张环景图
顺手检查一下 幼女什么的 没啥难度吧

Links booklink

Contact Us: admin [ a t ] ucptt.com