※ 引述《lcomicer (冷水青蛙锅)》之铭言:
: 可能大多套用相同模型去跑是其一
推 SaberMyWifi: 新手调的AI几乎都默认出来的不耐看,高手调的就很棒11/03 10:21
推 uohZemllac: 因为有在认真专研做出变化的的ai绘师少之又少11/03 10:25
→ uohZemllac: 一堆一看就是直接用sd洗版的能不腻ㄇ11/03 10:25
其实和大家想的刚好相反,
那些“看起来很腻”的AI图其实才是许多不同的模型分别生出来的。
而所谓“风格比较多变”、“不是默认画风”的AI图,
生那些图的人搞不好换模型的频率还没“看起来很腻”的多。
首先要说明一件事,除非你用的是线上生成网站如midjourney,
否则大家用的大多都是SD stable diffusion,或是其模型或技术本身的衍生产物。
另外,AI没有默认的画风或模型。
真的要讲默认,如果你用的工具是最入门的automatic1111 webui懒人安装包的话,
他的确是会默认帮你下载一个模型叫SD15NewVAEpruned。
但假设我想用这个模型生一个穿着洋装的少女走在海边的日式ACG风格图片,
那这个模型生出来的东西可能长这样:
https://iili.io/2xCWcNe.png
或这样:
https://iili.io/2xCW6JI.png
上下取决于你要用咒文式提词或自然语言提词,但结果都是不可名状之物。
这其实就是早期被认为能实用的图片生成模型stable diffusion1.5。
基本上,阳春版的stable diffusion1.5并没有针对日式ACG风格训练,
因此生成不可名状之物是注定的结果。
第一个尝试让AI学习ACG画风,模型基于SD训练的是Waifu Diffusion,
早期的WD生出来的图片大概是长这样:
https://iili.io/2xCvzxI.png
另一方面,原本主打线上AI小说生成的网站novelai则是以SD为基底训练,
推出了在宅图生成方面相当卓越的线上生图服务。
novelai生成的图片大概长这样(有没有开始腻了):
https://iili.io/2xCStln.png
novelai不知道是公司内部本身的爱好,还是基于市场策略,
在当时主流都在研究真人图片或照片的时候,他们主打宅图这招算是确立了市场独特性。
至于他们成功的秘诀其实也很粗暴简单,
就是直接把网络上最大的宅图盗图网站当训练集给AI学习。
而无心插柳柳橙汁,他们在训练时把网站的分类tag也一起让AI学了,
这让novelai的模型对于标签式的提词有相当的理解能力,
取代自然语言的“咒文”也开始流行。
(附带一提,最新的Flux模型主打自然语言,但是那个自然语言有时候写起来更像咒文 ==)
如果你提词打得够全,那它甚至能生出某些在训练集中占比较高的热门角色,像这样:
https://iili.io/2xCs3Is.png
这件事的争议其实很大,毕竟它训练集来源是盗图网站,而它也没经过对方允许,
等于是盗上加盗。
然后呢,相当戏剧性的,novelai的模型某一天就突然被人干出来了。
这个外泄的模型一般通称为NAI,很快就被各路人马抓来进行各种调整训练。
事实上,前年至去年的ACG风格的AI图可能有九成以上都是基于NAI的衍伸产物。
再加上微调模型Lora解决了AI无法生成冷门和新角色的短版,
AI群魔乱舞的时代时代也随之开启。
这时代的模型生成的图片大致上长这样,像是热门模型hassaku:
https://iili.io/2xCyl3b.png
(这张图应该最腻,没错吧?)
同样也很热门,眩光效果突出的Cetus-Mix则是长这样:
https://iili.io/2xnd6b4.png
(应该也很腻吧,这模型是当时很多推特AI仔的首选)
又或是我认为最杰出,擅长把背景搞得异常丰富(杂乱)的agelesnate:
https://iili.io/2xn95RR.png
(这张应该没那么腻,因为这模型比较没有名气)
各位仔细瞧的话应该会发现,这三张图片乍看之下画风不同,
但是其实都可以看出来是原始NAI的衍伸产物。
SD1.5由于设备需求较低,当时的AI仔社群比现在活跃许多,
很多人用自家显卡,以NAI为底搞出各种不同的混合模型。
但由于原始模型SD1.5的上限,当时的AI图除非加上风格强烈的画风lora,
否则都很难完全脱出NAI的既成风格。
所以那个时代的图片大家看得最腻,但实际上模型种类却是最多的。
至今SD1.5还是有不少使用者,因为它需求的设备较低,能用4GB的显存勉强跑。
另外也有不少人是觉得SD1.5选择多、变化多,
或是单纯喜欢这种风格因此留在1.5时代。
下个时代则是stable diffusion XL的时代,简称SDXL。
stable diffusion的母公司在stable diffusion 2遭遇了滑铁卢等级的惨败,
SD2相比SD1.5并没有显著的成果提升,而且还删除了色情图片的生成能力。
没有色情的开源模型价值可想而知的是低到不行,结果当然是直接被大多数AI仔蛋雕。
虽然他们有搞个SD2.1补救,但为时已晚。
之后推出的SDXL则是一开始没在AI宅图圈引起太多波澜,
但是数个月后随后基于SDXL调整训练的模型则是彻底改变了AI仔的生态。
第一个是Pony,这也算是一个无心插柳柳橙汁的模型。
如同名称,Pony主要的学习目标是彩虹小马,
但是最终的成果是则是一个泛用性高,在各方面都有及格水准的模型。
原始的Pony生成的结果较接近欧美审美,最热门的衍伸模型AutismMix生成结果则是这样:
https://iili.io/2xord8X.png
这结果一路看下来应该很多人会觉得人物立像没有进度,可能还退步了。
是的,Pony系的模型的缺点不少。
最明显的就是整体生成结果偏暗,用色偏脏。
另外由于训练流程中出错,pony在生图时必须打上审美分级标签作为提词和负面提词,
这点也让部分使用者颇为诟病。
最麻烦的一点则是Pony的Lora必须为它专属,不仅是以前SD1.5不通用,
连其他以SDXL为基底的LORA也无法完全适用于Pony模型。
但是以下这张图可以清楚地告知为何缺点虽多,它仍成为目前最流行的开源宅图模型。
https://iili.io/2xobwFa.png
对,Pony系模型对于提词的理解远高于过往的SD1.5、NAI模型。
特别是在“多人互动”方面,坦白讲就是:“色图”。
基于SDXL的Pony本身对于提词的理解力远高于SD1.5数倍,
像上面那张图片在SD1.5时代抽了乱数几百张,挂了好几个外挂尿袋,
用inpaint涂涂抹抹了大半天可能都不一定生不出来。
但是在Pony时代,这类图片却只要不到一分钟的时间输入提词,
并且调整一下分区外挂就能快速生成,节省的时间可能有数百倍之多。
这张绫波零明日香我甚至没有抽乱数,是直接拿第一张生成的图片。
Pony出现的时机也和最大的AI模型网站civitai开始线上生成服务相应,
civitai对于Pony的推广在当时也算是不遗余力,促成了现今Pony一统天下的局面。
另外一个热门模型则是Animagine XL,其生成的图片如下:
https://iili.io/2xzlDwg.png
平心而论,个人觉得Animagine XL生的图其实比pony好看,
它的Lora能与其他SDXL模型互通也是其优势。
Animagine XL和pony孰优孰劣其实一直是AI仔的热门论战。
不少帮Animagine抱屈的人会觉得它只是败在Pony的色图攻势,
反方也有人认为Pony并不是真的只靠色图,而是单纯在理解提词方面胜出。
总之,这个模型也是有其爱好者。
虽然在色图方面较为不足,但是在非多人运动图片,特别是单人角色图方面有其优势所在。
那就回到开头了,那些“风格比较多变”的AI仔用的模型最有可能是什么呢?
是Pony还是Animagine XL?
答案是:复仇归来的novelai的SDXL新模型novelai3,俗称NAI3。
平心而论,在色图方面NAI3仍是略逊Pony一筹,但是它有自己的三个独特优势:
1.认识的角色多且完成度高,特别是当时的热门手游角色如:档案、马娘或原神。
2.认识的画师画风多且再现率极高。
3.擅长把以上两者混合。
以档案角色举例来讲,大概就这样:
https://iili.io/2xTBG0G.png
然后1+2玩久了之后,就有人开始尝试2+2,也就是将不同的画师风格混合,
甚至是1+2+2。
一样以档案角色举例来讲,大概就这样:
https://iili.io/2xTNGt4.png
或这样:
https://iili.io/2xTSnSI.png
又或者这样:
https://iili.io/2xTPTD7.png
是的,大部分的AI仔达成“风格比较多变”这个前提其实不是他们自己有练模型,
也不是他们经常换模型。
而是他们使用的模型本身就能以提词去拼、去叠、去组合、去接龙,
以不同画师的画风组合达成风格多变,甚至是“没有AI味的效果”。
要达成这种效果,其实也就是在提词写上角色名字+画师名字+画师名字一直往下叠。
单以图片生成来讲,这有很难吗?
一开始接触如果你平常没在追画师可能确实有点难度,
但是熟了,或者从别人那边要到提词,单纯叠画师也是几分钟内的事情。
以现在来讲,由于SD1.5和Pony都是以清洁的线条与均匀上色的风格为主。
所以AI仔在叠画师通常会选择那些线条笔触强烈(或者相反没什么线条),
上色色块明显,但是脸部特色又没有太独特的画风为主。
甚至有些人为了加强笔触,会把以前通常放在负面提词的sketch(素描)拉到正面提词。
最衰,最常被拿来叠的大概就以下几位:
TrNyteal(我感觉几乎每张都有他 ==)、
藤ちょこ、にんげんまめ、rei_17、DSマイル、ヒトこもる等等。
然后叠完可能还会再追加几个画风比较强烈的来修补。
例如觉得图片太平没立体和光影就叠个as109、
不够美少女画风就叠个YD试试、想要偏写实一点就叠个wlop、
想要特别一点的风格就加上ratatatat74等等。
对了,有些画师的名字建议别在公开场合估狗,社会性死亡机率很高 ==
所以真的是风格多变就是所谓的“用心的咒术师”吗,也不一定,
在电脑前的他其实搞不好其实只是一直在玩画风叠叠乐,然后拉长图片放出时间而已。
甚至我都在怀疑某些说自己有加笔的根本没加,
不然就是只修最容易看出破绽的眼睛和手。
至于之后吗?
novelai我记得很久以前就说在弄NAI4了,只不过目前还没消息。
开源部分,
其实Kohaku(这位是台湾高材生)在今年初弄出来的模型Kohaku-XL系列,
在角色认知和叠画风方面已经可以有和NAI3互角的本钱。
只可惜他本人似乎没有足够的设备($$)提供算力让模型精益求精。
我手上的Kohaku-XL Epsilon用叠叠乐生图的结果大概长这样:
https://iili.io/2xAUJJp.png
前月推出的开源模型Illustrious XL则是以Kohaku-XL为基础,
而它本身和衍伸的各模型实质上已经在各方面超越了Pony和NAI3。
写到这边我懒得再切模型读取了,直接贴今天和前几天测试的叠叠乐 ==
https://iili.io/2xAtcJe.png
https://iili.io/2xREcml.png
https://iili.io/2xAtAs2.png
https://iili.io/2xAtzbf.png
https://iili.io/2xAt5fS.png
https://iili.io/2xAtuWl.png
(角色方面除了小孤独其它有套角色Lora)
这些叠叠类有些是我自己乱凑,有些是照抄别人的,
总之大部分脱离不开上面的提及的可怜画师。
虽然不是同一个模型生的图,但是原理基本上大同小异,
也都是Illustrious XL的衍伸产物。
我以前说过Illustrious XL在色图方面没Pony强,
但过了一个月一些优秀的微调模型问世之后在色图上Illustrious XL也确实超越了Pony。
至于为什么现在Illustrious XL还没有非常热门?还是一堆人留在Pony?
真正的原因大概是civitai正在全力推广那个又肥又贵,
写自然语言能写到比标签提词更像咒文的flux吧 ==
回标题,那些AI图看不腻?
对AI仔我来讲,
只要是愿意公布自己的生成提词和参数的图片,不管它是什么风格什么模型,
我看再多都不会腻。
而那些想赚热度,对生成细节和技术一个字不提,
只写个“AI生成”、“AI加笔”的推特AI仔的图倒是真的腻。
(因为用了萝莉相关提词怕被搞的不公布不算,这点我可以理解 ==)
甚至还有那种明明就自己加了一堆尿袋外挂,提词写得天花乱坠去千方百计去引导AI,
尿袋里的尿都快满出来了,却硬要说成“AI想的”那种更是腻上加腻 ==
至于那种明明是AI图却不标注的也没啥好讲,就是想骗热度而已 ==
啊对了,别问我为什么不公布参数和提词。
我没写出来是因为这个图床有保留PNG INFO,想要的可以直接自取 ==