楼主:
orze04 (orz)
2022-10-06 17:50:37※ 引述 《newwu (说不定我一生涓滴废文)》 之铭言:
: 1.模型缺乏人类的先验知识,例如我们知道耳机长怎样,即使没看过耳机的ACG图
: 2.缺乏人类的创造力,因为人所能接受的ACG图范围一定比现在大得多,
: 缺乏人类的经验知识或本能,以现在的做法机器无法拓展新的创作范围
:
: 接下来简单讲一下,我所理解的主流生成模型
: 2. Diffusion model (见图三)
: 这个东西就是现在主流的这些动漫图生成器的原理
: 这东西比较不直观 数学也很复杂
: 简单来说,
: 在训练这模型时,先让原本那些样本点随机扩散
: 最后变成一个高斯分布 (ACG图退化成噪声)
: 同时纪录扩散过程
: 之后再训练一个模型学习逆扩散,把高斯分布还原回ACG图范围
: 之后你高斯分布取一点(丢一张噪声给模型)
: 模型就会自动把你的图推回去那范围(变成ACG图了)
这个加噪降噪的过程可以用数学方程表达
比如说雷太猎奇奶的概念
人类的理解就是巨乳、气球
diffusion的理解则是一堆数学式
同样的概念,不同的表达方式
人会参考过去经验或既定习惯作画,这些参考或习惯就是拼图块,机器从何不是
你画一个雷太猎奇奶的大凤摆jojo立,这让人或AI画都是在拼拼图