Re: [闲聊] AI画图是不是大数据拼图?

楼主: yoyololicon (萝莉大好)   2022-10-07 00:04:31
最近回去念书了,念的programme名字有AI,应该可以发个言ㄅ
新科技需要热衷的族群做推广,有推广才有funding,我才有薪水qq
不过这些族群不一定对科技有正确的认识
这几天看到一些不精确又容易误导的解释真的会中风
想说做点简单的科普(科普很难我知道qq)
※ 引述《newwu (说不定我一生涓滴废文)》之铭言:
: 见图二
: 理解这个想法后
: 我们把图像的高维空间画成二维方便表示
: 以ACG图为例
: 那被人类接受的ACG图就是一个高维空间中的分布
: 简单理解就是一个范围内的图,会被视为可接受的ACG图
: 在那个范围外的空间包含相片 噪声 古典艺术 支离破碎的图
: 生成模型的目的,就是从范围内的样本(下图红点)建立一个模型
: 这个模型学习到这个范围,而模型可以生成也只会生成在范围内的点
: https://i.imgur.com/NfUyIAg.jpg
: 图二
借用newwu的图
目前大家在讨论的AI,其实更精确地讲,应该说是图像的生成模型Generative Models(GM)
GM有很多种
举凡VAE, Autoregressive Models, GAN, Normalizing Flow, Denoising Diffusion都是
而一个被科学家普遍采用的假设是
真实世界资料的复杂分布(图二),都对应到一个潜在空间latent space
而这个空间通常较具有可读性(interpretable),例如某个维度代表某种面向
另外方便起见,现实资料这个潜在空间的分布会是个很简单可操作的分布
大部分论文都用常态分布Gaussian,但我相信也有人用binomial分布之类
为什么要这么设计? 因为如果假设为真,可以帮助我们去分析与理解现实的资料
科学研究本来就是要帮助人类进步,怎么会抢绘师的饭碗
而大部分模型在做的事,就是学这个两个空间的对应关系
训练方式也很简单,最大化资料在这两个空间的可能性(likelihood)
VAE的潜在分布在一个低维空间
GAN虽然理论基础薄弱导致先天性缺陷一大堆,但也是在modeling低维的空间
Normalizing Flow和Diffusion比较特别,潜在空间的维度和原始资料一样
Autoregressive Models直接模拟现实的分布,但不影响上述的假设
至于Diffusion Models的贡献还有表现为什么这么好,以至于疯狂的流行起来
比之前的GAN热潮有过而无不及,主要是因为训练Diffusion Model和训练VAE一样
都是在最大化分布的下限 maximium lower bound
然而却没有VAE的模糊问题,证明只要分布设计的好
是可以同时保持VAE的好训练特色和GAN一样的高likelihood
也不是没有缺点
如果把整个生成过程摊开来看,Diffusion model就是一个超~~极深的神经网络
比ResNet还深,导致生成非常耗时,加速生成过程也是一个热门的研究方向
如果对diffusion models有兴趣,想快速了解也不排斥读论文
我推荐这篇近期的overview paper,对整个diffusion models的不同面向都有做讲解
https://ar5iv.labs.arxiv.org/html/2208.11970
也可以看板上cybermeow的解说
另外这篇的结语也非常有趣
就是人在画图的时候,是否也是借由不断的去噪,提炼出一张图的?
diffusion实际上真的模拟的人类的创作过程吗? 值得玩味
最后回答几个常见的QA
Q: AI画图都是从别人的图找出来拼贴的。
A: 没有这种事。
从以上以及前几篇的讲解,可以知道生成模型从头到尾在做的
就只是机率统计而已。
给予离散的资料点,找出最能代表的连续函数,仅此而已。
因为有loss的关系,要生出完全一模一样的图几乎不可能
(当然也有生出不完全相同,但人类感知上无法察觉不同的情况
Q: AI绘图只能迎合大众的喜好,无法有独创性,提出新的概念。
A: 这是个无法说死的问题。
理想上,数个资料如有类似的属性,不管是画风、概念、构图
在潜在空间应该会落在一个邻近的区域(cluster)
如果我们有足够的资料、足够强的模型架构,能真的完全模拟现实资料的潜在分布
那么所谓的没出现在训练资料,具有独特性的绘图
也许只是某个能内差或外插出来的区域而已。
当然也有可能AI绘图影响到人类绘图的整体分布,脱离原本的潜在空间。
Q: diffusion的训练过程和GAN相比,会直接看到训练过程所以较强(#1ZFbZ85b)
A: Nonsense.
diffusion强大的原因在前文已经解释了。
GAN不可能没用到原图的资讯,你如果把discriminator和generator并在一起当作同一个
模型就知道了。
VAE的训练也会直接看到原图,效果却一般。
Q: CNN的filter是找最常出现的pattern,所以有用到其他图的资讯去拼贴!
A: Also nonsense。
如果今天CNN只有一层,那还有一点道理。
但一到两层以上,这些Hidden feature所在的空间和原本资料所在的空间已经是不同的了
要说拿图去拼贴非常牵强。
大概酱,有问题可以直接推文,还得写今天跟老板的会议纪录QQ
作者: diabolica (打回大師再改ID)   2022-10-07 00:06:00
不懂的还是继续不懂
作者: erisiss0 (965005)   2022-10-07 00:07:00
人类画图 确实就是去噪这个原理就是人类画图 先打线稿 然后从线稿中追求理想涂上某个色彩 然后又抹去部份 添加细节
作者: tym7482 (Max)   2022-10-07 00:09:00
嗯嗯嗯跟我想的差不多
作者: trywish (一一二)   2022-10-07 00:10:00
重点是图和照片界线越来越淡,以前大家希望保持细节,现在照片,反而一堆人只想要"线条"和颜色。修图修到最后,细节都不见了,不过却被说是"美的照片"
作者: erisiss0 (965005)   2022-10-07 00:12:00
模糊的美学嘛 眼不见为净 不然拍照也不会出远景了
作者: nisioisin (nemurubaka)   2022-10-07 00:12:00
推科普
作者: AN94 (AN94)   2022-10-07 00:13:00
一堆专有名词谁看的懂 不翻译成人话也是枉然
作者: inte629l   2022-10-07 00:13:00
先推 等睡不着在看overview paper XD
作者: DeeperOcean (越深海)   2022-10-07 00:15:00
AI技术上本来就是没有问题的,问题一直是用法跟目的
楼主: yoyololicon (萝莉大好)   2022-10-07 00:16:00
我会再加强解释的功力qq
作者: DeeperOcean (越深海)   2022-10-07 00:16:00
很多状况根本是使用者本身希望能做到拿图改图的成果
作者: pot1234 (锅子)   2022-10-07 00:18:00
难得看到有人认真介绍 推推
作者: DeeperOcean (越深海)   2022-10-07 00:18:00
也就是借由AI这个清白的工具,做些投机取巧的事这才会有那么多问题的
作者: erisiss0 (965005)   2022-10-07 00:19:00
然后还要被一些不懂瞎搞的人说都是ai的错 禁止ai学图
作者: DeeperOcean (越深海)   2022-10-07 00:20:00
即使NovelAI官方,肯定也没有想为数据库付钱的念头
作者: smart0eddie (smart0eddie)   2022-10-07 00:21:00
作者: lay10521 (小伊达)   2022-10-07 00:22:00
之前有个论文 是把成果再加上一个分类器
作者: aa9012 (依君)   2022-10-07 00:22:00
2楼被打脸了 还能坚持己见
作者: XFarter (劈哩啪啦碰碰碰)   2022-10-07 00:24:00
@aa9012 二楼那里被打脸了?
作者: erisiss0 (965005)   2022-10-07 00:24:00
您是不是认错人?
作者: XFarter (劈哩啪啦碰碰碰)   2022-10-07 00:25:00
另外这篇文讲得很好 但不懂的阅读的人还是不懂啦...文章太长或图片不够多的都入不了某些版友的法眼,我猜。
作者: smart0eddie (smart0eddie)   2022-10-07 00:25:00
人类的去噪跟defusion 的不一样吧
作者: erisiss0 (965005)   2022-10-07 00:25:00
手法确实不一样 人类比较擅长加法的去噪
作者: smart0eddie (smart0eddie)   2022-10-07 00:26:00
有人看不懂这也不是文章太长还是没图的问题
作者: erisiss0 (965005)   2022-10-07 00:28:00
人类对一张图 做的去噪就是加法
作者: smart0eddie (smart0eddie)   2022-10-07 00:28:00
光是那个likelihood非相关的人不太会去碰到吧
作者: hduek153 (专业打酱油)   2022-10-07 00:29:00
理想ai跟现在的ai效果终究是有差距的
作者: tim970303   2022-10-07 00:29:00
感谢解说每次看到说拼贴的头都很痛,另外想请问diffusion model中将原图加上噪点后如何训练denoise,像是NN就是微分取导数求最快下降的梯度,那denoise的过程呢,如果需要大量机率的背景知识或是大大懒得解释就算了,谢谢?
作者: Vulpix (Sebastian)   2022-10-07 00:30:00
去噪作画……我觉得沙画挺像的XD 或者用磁铁玩沙铁画。
作者: kingo2327 (NakedGenius)   2022-10-07 00:30:00
多拉A梦我需要翻译年糕
作者: XFarter (劈哩啪啦碰碰碰)   2022-10-07 00:31:00
比较像是在玩可以把沙子拿起来砸回去的沙画没错啦 diffusion model 就我的理解就是在做这件事
作者: IllMOR (九六三七年五八月二一日)   2022-10-07 00:34:00
作者: friesman1270 (薯条先生)   2022-10-07 00:37:00
刚刚突然想到,假设今天再也没有任何新的艺术创作,ai还能够继续学习吗?
作者: guogu   2022-10-07 00:38:00
没事 说拼贴的明天继续说拼贴
作者: carson1997 (cargp)   2022-10-07 00:40:00
推个
作者: tim970303   2022-10-07 00:41:00
原来如此感谢大大解说 简单明了
作者: Darnatos   2022-10-07 00:44:00
推 但不想懂的不会看
作者: afking (挂网中)   2022-10-07 00:44:00
目前的AI本质上就是机率统计
作者: friesman1270 (薯条先生)   2022-10-07 00:46:00
抱歉,用字不精确,谢谢原po解惑
作者: jerrysaikou (jerry)   2022-10-07 00:46:00
推 但不懂的继续跳针拼贴
作者: healworld (忏悔明天)   2022-10-07 00:52:00
谢谢解说
作者: an94mod0 (an94mod0)   2022-10-07 00:56:00
嗯,我之前也是这样觉得
作者: coaxa (cocacolaaa)   2022-10-07 00:56:00
原来如此我懂了(完全看不懂)
作者: ImCasual (七星破军干你娘)   2022-10-07 00:57:00
嗯嗯跟我想的差不多.jpg
作者: hjwing280 (胡蝶ノ梦)   2022-10-07 01:02:00
作者: CP64 (( ̄▽ ̄#)﹏﹏)   2022-10-07 01:18:00
之前是有在跟朋友开玩笑说之前修复耶稣像失败的猴子耶稣算不算跟这个模型同一个逻辑 XDD
作者: purplemagic (寂寞边界)   2022-10-07 01:24:00
图片对电脑来说就是一堆色码对吧?选定一个点的色码为起点,将周围的点的色码以及和起点的距离等数据资料喂给电脑,找N个起点、重复NN次,跑统计分析,电脑就能知道在设定的那个起点周围的点要用什么色码,才会符合人类的癖好,就能画出类似的图。可以这样说吗
作者: CowGundam (牛钢)   2022-10-07 01:27:00
听起来很像我之前看到有人说的黑洞理论,世界是黑洞表面上的资讯投影,不过这样为什么会有之前被比对的肉眼都可以看出来的描图感呢听起来应该是随机生成的噪点却刚好跟某张图一摸一样,去躁时才产生不一样的点,算是机率问题吗
作者: octangus07 (安)   2022-10-07 01:36:00
长知识 推
作者: haha98 (口合口合九十八)   2022-10-07 01:37:00
你人真好 看到拼贴仔根本懒得跟他讲
作者: orze04 (orz)   2022-10-07 01:45:00
@purplemagic AI认知的方式是一组向量
作者: hanmas   2022-10-07 01:50:00
可以说英文吗
作者: DendiQ (貔貅)   2022-10-07 01:51:00
跟我想的一样
作者: peter91828   2022-10-07 02:08:00
那要如何决定采纳他的资料来源,他的资料来源是否有版权问题
作者: namirei (哎呀奈米光)   2022-10-07 02:15:00
感谢科普
作者: iampig951753 (姆沙咪猪)   2022-10-07 02:17:00
人类画图不是去噪难道是创造吗那还取个屁材坐在家冥想就好
作者: k12795 (远远)   2022-10-07 02:23:00
描图感有几种可能啊 印象中有一种服务是你给图然后它参照再出图的 那很相似也正常另外一种就先射箭再画把 拿一张常见动作的AI图 直接去翻一个动作像的再出来嘴砲就好
作者: holebro (穴弟弟)   2022-10-07 02:32:00
此生不碰deep learning
作者: czplus (taskfever)   2022-10-07 04:23:00
“像”是AI的目的,“但不完全像”这是AI合成过程中的必然,所以基本上很难说是拼贴“很像”的情形其实代表AI“学得不错”,AI找出了一个能用“向量”有效描述一张图的方法创作某方面也是一个“像,又不完全像”的概念,你当然有可能AI生成的图片中找到新的画风,甚至要AI去学习那个画风
作者: CowGundam (牛钢)   2022-10-07 07:22:00
我看到的推特那张图的确是作者几个月前就画好的应该是前者,所以应该是前者吧
作者: jasonchangki (阿特拉斯耸耸肩)   2022-10-07 07:59:00
阿法狗的蒙地卡罗算不算一种燥所以现在AI是给它一堆图,然后给他赛位置的意思?
作者: q3512768 (ZapRin)   2022-10-07 08:47:00
谢谢你的讲解,懂大概一点点
作者: likeyousmile   2022-10-07 08:52:00
作者: joseph2616 (Jokename)   2022-10-07 09:39:00
强者我朋友yoyololicon ><

Links booklink

Contact Us: admin [ a t ] ucptt.com