最近回去念书了,念的programme名字有AI,应该可以发个言ㄅ
新科技需要热衷的族群做推广,有推广才有funding,我才有薪水qq
不过这些族群不一定对科技有正确的认识
这几天看到一些不精确又容易误导的解释真的会中风
想说做点简单的科普(科普很难我知道qq)
※ 引述《newwu (说不定我一生涓滴废文)》之铭言:
: 见图二
: 理解这个想法后
: 我们把图像的高维空间画成二维方便表示
: 以ACG图为例
: 那被人类接受的ACG图就是一个高维空间中的分布
: 简单理解就是一个范围内的图,会被视为可接受的ACG图
: 在那个范围外的空间包含相片 噪声 古典艺术 支离破碎的图
: 生成模型的目的,就是从范围内的样本(下图红点)建立一个模型
: 这个模型学习到这个范围,而模型可以生成也只会生成在范围内的点
: https://i.imgur.com/NfUyIAg.jpg
: 图二
借用newwu的图
目前大家在讨论的AI,其实更精确地讲,应该说是图像的生成模型Generative Models(GM)
GM有很多种
举凡VAE, Autoregressive Models, GAN, Normalizing Flow, Denoising Diffusion都是
而一个被科学家普遍采用的假设是
真实世界资料的复杂分布(图二),都对应到一个潜在空间latent space
而这个空间通常较具有可读性(interpretable),例如某个维度代表某种面向
另外方便起见,现实资料这个潜在空间的分布会是个很简单可操作的分布
大部分论文都用常态分布Gaussian,但我相信也有人用binomial分布之类
为什么要这么设计? 因为如果假设为真,可以帮助我们去分析与理解现实的资料
科学研究本来就是要帮助人类进步,怎么会抢绘师的饭碗
而大部分模型在做的事,就是学这个两个空间的对应关系
训练方式也很简单,最大化资料在这两个空间的可能性(likelihood)
VAE的潜在分布在一个低维空间
GAN虽然理论基础薄弱导致先天性缺陷一大堆,但也是在modeling低维的空间
Normalizing Flow和Diffusion比较特别,潜在空间的维度和原始资料一样
Autoregressive Models直接模拟现实的分布,但不影响上述的假设
至于Diffusion Models的贡献还有表现为什么这么好,以至于疯狂的流行起来
比之前的GAN热潮有过而无不及,主要是因为训练Diffusion Model和训练VAE一样
都是在最大化分布的下限 maximium lower bound
然而却没有VAE的模糊问题,证明只要分布设计的好
是可以同时保持VAE的好训练特色和GAN一样的高likelihood
也不是没有缺点
如果把整个生成过程摊开来看,Diffusion model就是一个超~~极深的神经网络
比ResNet还深,导致生成非常耗时,加速生成过程也是一个热门的研究方向
如果对diffusion models有兴趣,想快速了解也不排斥读论文
我推荐这篇近期的overview paper,对整个diffusion models的不同面向都有做讲解
https://ar5iv.labs.arxiv.org/html/2208.11970
也可以看板上cybermeow的解说
另外这篇的结语也非常有趣
就是人在画图的时候,是否也是借由不断的去噪,提炼出一张图的?
diffusion实际上真的模拟的人类的创作过程吗? 值得玩味
最后回答几个常见的QA
Q: AI画图都是从别人的图找出来拼贴的。
A: 没有这种事。
从以上以及前几篇的讲解,可以知道生成模型从头到尾在做的
就只是机率统计而已。
给予离散的资料点,找出最能代表的连续函数,仅此而已。
因为有loss的关系,要生出完全一模一样的图几乎不可能
(当然也有生出不完全相同,但人类感知上无法察觉不同的情况
Q: AI绘图只能迎合大众的喜好,无法有独创性,提出新的概念。
A: 这是个无法说死的问题。
理想上,数个资料如有类似的属性,不管是画风、概念、构图
在潜在空间应该会落在一个邻近的区域(cluster)
如果我们有足够的资料、足够强的模型架构,能真的完全模拟现实资料的潜在分布
那么所谓的没出现在训练资料,具有独特性的绘图
也许只是某个能内差或外插出来的区域而已。
当然也有可能AI绘图影响到人类绘图的整体分布,脱离原本的潜在空间。
Q: diffusion的训练过程和GAN相比,会直接看到训练过程所以较强(#1ZFbZ85b)
A: Nonsense.
diffusion强大的原因在前文已经解释了。
GAN不可能没用到原图的资讯,你如果把discriminator和generator并在一起当作同一个
模型就知道了。
VAE的训练也会直接看到原图,效果却一般。
Q: CNN的filter是找最常出现的pattern,所以有用到其他图的资讯去拼贴!
A: Also nonsense。
如果今天CNN只有一层,那还有一点道理。
但一到两层以上,这些Hidden feature所在的空间和原本资料所在的空间已经是不同的了
要说拿图去拼贴非常牵强。
大概酱,有问题可以直接推文,还得写今天跟老板的会议纪录QQ