尝试解释一下AI生成实际上在做的事情
AI在机器学习的最佳化过程中所想要学的目标是“机率分布”
假设今天有一个全知全能的里洽之神,而你获得无限次对祂许愿的机会
你许下的愿望是:
“请给我一张在温泉遇到的鬼族幼女想要把我调教成萝莉控的图片”
(示意图:https://i.imgur.com/U2t8SKY.jpg)
那么就有可能出现如同上图一样的内容
不过鬼族不一定有两只角,所以角可能是一只或三只
愿望内容中完全没有出现东方,所以当然不一定会是东方角色
如果你真的可以许愿无数次,你就可以看到几乎所有可能
同时还可以知道各种你没讲清楚的属性出现的机率各自为何
一个AI模型的学习目标就是在收到同样的指令后,产生尽量接近的机率分布
至于各种语言的关键字如何被理解为一句话的指令,就牵涉到自然语言的领域
这部分比变形金刚的科学原理还要复杂,在此就省略不细讲了
(有兴趣的人可以参考:https://www.youtube.com/watch?v=ugWDIIOHtPA)
类神经网络真的可以“学习”一个机率分布吗?
这个领域的数学家已经用各种证明告诉你“应该可以”
至于这个证明过程中当然有许多“这里我算不下去所以假设一下”的内容
不过成果各位也看到了,细节相信各位不想去碰,因此这个“应该”还是可以相信的
那为什么AI会忽略手指呢?
因为“图片的机率分布”这种无限精细度的连续函数,本来就是不可能完全重现的东西
就连训练者也不会知道标准答案是什么,几亿张的训练资料并无法代表无限大
变化量大的内容(如五根手指的摆放方式)在两张很接近的图片之间的未知领域
连人类都不知道详细应该怎么画,训练出来的AI就只能自行“脑补”
而AI的脑力(这可以用模型的Byte数直接比喻)是有限的,他会选择最有效率的方式
如果它真的觉得五→六→五根手指的转换是最顺的
(例如,长一根出来再缩一根回去,图片变化幅度可能最小)
那人类也无法先行阻止,只能用extra fingers之类的关键字与它斗智斗勇