[创作] 训练了一个根据草稿画一个固定角色的模型 kirimaru73 PTT批踢踢实业坊

[创作] 训练了一个根据草稿画一个固定角色的模型

楼主: kirimaru73 (雾丸) 2022-10-02 12:32:10

前言：这并不是那个现在几乎每天都有新话题的AI根据关键字自动绘图。
一来那种研究已经有很多人做了，我手上的资源也不可能把它做好。
二来我对AI无法通灵的问题也不是很满意。我还是宁愿主动给予较明确的资讯。
我的目标是给予一张低分辨率的黑白草稿图片（非黑即白，没有中间灰阶值），
输出一张较高分辨率，且与特定主题相符的彩色图片。
目前的版本中，草稿图片的分辨率为64x64，远低于一般描绘草稿的尺寸。
输出彩色图片的分辨率则为256x256，老实说这有点太小了。
但受限于手上的资源与花费时间，目前只能达到这个尺寸。
至于“特定主题”的限制，则与这个问题本身的难度有关。
即使是给予“二次元人物大头照”这么明确的设定，也有各种不同的配色。
无论AI再怎么厉害，也绝不可能在无额外资讯的情况下通灵出你想要的配色。
当然已经存在许多额外输入颜色的应用范例，但终究还是要提供额外资讯。
一种只需要给草稿，不需要额外资讯的应用方法，就是请AI画某个特定角色。
而这种吃力不讨好的研究，当然就要选自己最喜欢的角色了：
https://dic.pixiv.net/a/%E6%98%9F%E7%86%8A%E5%8B%87%E5%84%80
示范影片：
https://www.youtube.com/watch?v=_3o_YFQoWDo
在目前的成果中，可以看到AI确实认得发色、瞳色、以及那根明显的角。
而在许多可见的问题中，最严重的就是那有如核废料般的背景。
这其实是可想而知的结果，在下面的细节中会特别解释。
而它其实也有解决方法，但目前的版本还无法处理，应该会是下一个研究主题。
训练出这么一个只能画特定角色的模型有什么用？老实说，没什么用。
现在都2202年了，一个只能画一颗头的玩具最多就只是个玩具。
虽然还是好像有点东西出来，但笔触方面仍旧不太自然，颜色变化也单调。
与处理训练资料所花的时间相比（准备草稿非常耗时，后续细节部分有说明），
这个种程度的结果相当相当成比例，直接去练绘图似乎还比较好。
所以我才在一开始就选定这个角色，至少这样我就绝对不会后悔。
以下是一些与人工智能研究直接相关的细节，没兴趣的读者们可以忽略。
训练资料
训练AI需要收集大量的资料，而我总共收集了2400张图片。
虽然这个角色的人气很低，不过在Pixiv上也有接近两万张图片。
(其他绘图网站当然也有不少，但还是Pixiv数量最多。)
由于主题是脸部特写，所以我需要排除以下的图片：
1. 有一只眼睛完全被挡住的侧脸（这会产生过大的变化度，使AI训练困难）
2. 一只或两只眼睛闭上（比1.简单一点，但还是有影响，先排除）
3. 脸部被太过夸张的装饰或前景遮挡
4. 脸部被角色自己的CP贴上来遮挡
5. 画风过于特殊，与一般的二次元绘图相去太远
6. 上车图（我不希望未来哪一天时在展示资料时突然就手滑了）
7. 主推绘师所产出的大量图片（资料重复性太高对训练不妥，我只会从中挑几张）
过滤完后的可用图片只剩下2400张（当然每一两天会有新的，不过缓不济急）。
以AI绘图的主题来说，这个量其实根本不够，不过更多的我也生不出来。
要标示原始图片的脸部区域，并获得旋转与裁切后的内容并不困难。
如果你要玩的是GAN或Diffusion Model，那你已经可以拿去用了。
不过我的主题是给予对应的草稿，将这些图片做为输出的标准答案。
由于AI无法通灵出没有给的资讯，例如图片环境的明暗，以及作者习惯的配色。
因此我以脸部附近的颜色分布为参考，将所有图片的明暗与颜色调整至一致。
（实作上我只是分别调整RGB三色频道的平均值与标准差而已。）
接下来的重点是准备这些图片的输入草稿，而这就是另一个恶梦的开始。
草稿输入
我将每张图片的脸部旋转至水平方向，以产生2400张256x256的脸部特写。
对于每一张图片，我需要给予一张对应的64x64草稿，像这样：
https://i.imgur.com/qQEvoHP.png
右边是256x256的图片，左边是64x64的草稿放大成256x256的尺寸。
很明显地，草稿绝对不可能表达出所有的完整的细节，一定要做大幅度的简化。
当然如果是256x256的草稿就可以描绘更多细节，但这与我一开始的目标不符。
虽然我愿意给AI输入资料，但还是希望它能用非常精简的内容产生复杂结果。
怎样的内容该用怎样的草稿代表？这完全没有标准答案。
我只能用自己的一套标准，并尽量从头到尾保持一致。
例如，背景的内容与角色本身无关，所以无论细节为何都保持空白。
角色脸部以下自然延伸的脖子、肩膀部分会提供对应的草稿。
但如果是举起的手脚或不相干的背景，则只标示出边界，以外则保持空白。
虽然草稿只有64x64，但如果是逐个像素慢慢点，点个几张就要出人命了。
所以我用了一个简单的边缘侦测算法来产生一个作为起始的自动草稿：
https://i.imgur.com/JAsJMNK.png
当然这种自动草稿的可靠性还是很差，每一张图都有许多地方需要手动修改。
而来源不同的图片有各种不同的画风，有时候会出现差异明显较大者：
https://i.imgur.com/rYM7MDd.png
这种画风与线稿上色明显不同，在训练时有引发混乱的风险。
然而，在训练资料缺乏的状况下，我还是有使用这类型的资料。
(当然更极端的案例，例如水墨画风格，则还是舍弃不用。)
另一个比较严重的问题是位于图片边界的脸部：
https://i.imgur.com/EAJ8mnH.png
如果想像头型画出完整的草稿，则AI会看到正常的草稿以及缺乏部分内容的图片。
（图片外的区域我以随机颜色填补，所以才会出现亮绿色，这似乎不是好做法）
所以我只把草稿画在有效区域内，外部区域以及图片边界上都不标示，
然后祈祷AI至少能在有效区域内学到有用的东西（AI训练师常有的信仰）。
在现实上，这个边界问题，以及图片中不固定的背景内容，
就是造成了范例影片中背景颜色有如核废料一般的原因。
一种可能的解决办法是在标示草稿时，也额外标示一个背景与无效区域。
然后在训练时要求AI把该区域填成白色，这样至少可以得到一致的结果。
更进一步的策略是，在AI训练小有成果后，
把这些有边界问题的图片之草稿画成完整的样子，然后请AI重新画一张。
这样或许可以在本人还没有原作者绘图功力的前提下补出完整的头型。
不过这个做法目前还在想像阶段，无法保证能得到堪用的结果。
Augmentation(资料增补)
用图片进行AI训练时不可能只使用固定内容的一份训练资料，
必须对其进行小幅随机变化，使AI能看到较有多样性的内容。
最简单的做法就是图片的缩放与旋转，很遗憾地，这非常不适用于本主题。
一张256x256彩色图片的对应输入资料为64x64黑白草稿图。
每一个草稿的黑色像素都对应到图片中4x4的区域。
如果将图片进行例如1.10倍的放大，或5度的旋转，
则草稿也要作相同的转换，使得绝大部分的像素移动到非整数座标的位置上。
这时候有两种策略：
(1) 用Bilinear Interpolation让草稿变成有灰阶渐层的内容
由于本应用希望输入的是非黑即白的草稿(如范例影片)，这样作并不适合。
(2) 用Nearest Neighbor Interpolation让草稿保持非黑即白状态
可想而知草稿会变得破破烂烂，结果应该很不堪用
不过从后面提到的其他资料增补方法看来，或许可以考虑这样做。
总之，目前的资料增补方式排除了图片的缩放与旋转。
当然也不能就这样什么都不做，至少平移还是可以做的。
草稿图每移动一像素，原始图片就要移动四个像素，否则会有同样的问题。
因此我在裁剪脸部图片时，将256x256的范围往上下左右各放大八格。
所产生的272x272图片就可以供草稿图片上下左右随机平移最多两格。
下图为一范例，上半部是原本位置，下半部随机平移：
https://i.imgur.com/nO2x2iR.png
草稿图片平移产生的空隙目前就先留白，但其实有另一种更好的处理方法。
如果在标示图片时，就已经根据272x272的范围标好68x68的草稿，
那么只要是在限定的范围内随机平移，都可以得到完整的64x64草稿。
不过我在做到一半时才想到这点，所以目前只有用留白的简单方法。
另外，对于草稿本身也需要做一点随机变化。
当你使用一只鼠标当画笔，假装这种东西叫做绘图板时，
画出的线段一定会破破烂烂，或是在曲线上有不自然的转折。
收集资料时产生的草稿图片都经过仔细修补，实际上不可能一口气画成。
所以在训练时，必须在草稿图片上随机增加像素或移除像素。
以模拟实际画草稿时断断续续的结果，或是曲线上如同阶梯一般不自然的连接。
同时还加上另一种更激进的做法，擦除草稿内随机数量与位置的小块区域。
下图为一范例，上半部是原本的完整草稿，下半部是扰动后的结果：
https://i.imgur.com/YJk0SNb.png
扰动后的残破草稿，在训练时仍然对应到内容完整的彩色图片。
这当然是期望AI能在输入尚未完成时，就产生接近完整的结果。
实际看到的结果当然没有这么理想，但也有大致的趋势。
例如眼睛的草稿还没有画完时，会出现一团颜色偏黑带红(瞳色)的物体。
一般来说，对于输出图片的内容也需要进行位置以外的随机调整。
常见作法有亮度（整体或三色频道分开）随机变化，或将整张图片模糊／清晰化。
在本应用中，这个做法并不太合理，它会使同一张草稿对应到不同的输出图片。
这在训练上除了使AI混乱外没有好处，因此我没有采用这种做法。
最后，最简单也不用担心技术上问题的做法，是随机将图片左右翻转。
只要将草稿图片也跟着左右翻转，就能轻松满足对应关系。
然而这其实有与研究“主题”高度相关的限制：
以这个角色来说，没有任何因素会阻碍左右翻转的策略。
但如果是像凯留这种挑染固定挑在左边的角色，翻转后就会发生问题：
https://i.imgur.com/AFgxajC.png
要让AI同时学会“只有一条挑染，但可能出现在左边或右边”其实并非难事。
但一个挑染在相反方向的角色还有灵魂吗？这种哲学问题就会产生许多争议了。
模型架构
输入一张图片，输出一张图片，这怎么看都是U-net。
所以我使用的模型也跟教科书上随处可见的U-net完全一样，没什么新奇的。
唯一的小变化是原本Concatenate的地方，我用1x1 Convolution+Add取代。
因为实际测起来没什么差别，我就选比较省计算量的版本了。
(Concatenate下一次的Convolution复杂度会变大，比替代的做法还耗时)
至于什么Resnet block, Bottleneck的小变化也都试过，
但是并没有在训练／测试速度都已经变得更慢的情况下得到更好的结果。
前面提供的范例图片中，输入的草稿图片都是白底黑线。
但在图片资料处理中，黑色代表的数字是0.0，白色则是1.0。
白底黑线的图片中绝大多数都是非零的值，有笔画的地方才是0。
黑白颠倒后的黑底白线图片则绝大多数都是0，有笔画的地方才有非零的值。
后者观感上明显比较合理（数学上我不敢肯定），
所以草稿图片会进行黑白颠倒，以黑底白线的内容做为模型的输入。
令我比较好奇的是，一般即使是输入单频道图片，也会有不同的灰阶值。
而这个应用的输入格式比较特殊，只有0.0和1.0两种数值。
比起一般U-net接上的3x3 Convolution，是否需要一些特殊的前端Layer，
才能让模型更有效率地从这个内容相对比较单调的输入抽取资讯。
不过这边能搞怪的地方我也稍微玩过，目前还没发现什么值得一提的做法。

作者: shadowblade (影刃) 2022-10-02 12:34:00

先推个

作者: gino0717 (gino0717) 2022-10-02 12:39:00

这东西很有色色的潜力

作者: terry12369 (Doge) 2022-10-02 12:40:00

先推

作者: BITMajo (BITMajo) 2022-10-02 12:41:00

如果目标是画一个特定的角色，我觉得这种作法恐怕是事倍功半，相对的直接建造3D模型算图快多了

作者: bnn (前途无亮回头是暗) 2022-10-02 12:41:00

工程人就是这样把一个个小范围特殊问题解掉最后包成一大包反正这不可能是一个人的工作分散到每个training多人平行处理越多玩家平行各自处理自己的性癖方面的training 最后反馈回去就能朝圣杯更进一步然后人类就灭亡了(X

作者: medama ( ) 2022-10-02 12:45:00

推

作者: BITMajo (BITMajo) 2022-10-02 12:47:00

这篇的重点应该是... 原PO喜欢星熊勇仪！

作者: longlongint (华哥尔) 2022-10-02 12:48:00

先不管有没有用总之想问硕论毕业了没

作者: BITMajo (BITMajo) 2022-10-02 12:50:00

看示范影片，感觉最后成果能出来，一大部分是靠原PO本身具有的绘画能力，如果草稿技术太差或许还是会炸掉AI最麻烦的部分似乎就在人机沟通，用语言沟通虽然不完美但也是目前最可行的办法了，如果要用图片沟通，就要另外再花很多心思去开发了

作者: SunnyBrian (人気薄二冠马) 2022-10-02 12:53:00

看不懂，可是要先推

作者: miyazakisun2 (hidetaka) 2022-10-02 13:00:00

推创作

作者: smart0eddie (smart0eddie) 2022-10-02 13:04:00

姆咪

作者: Vulpix (Sebastian) 2022-10-02 13:05:00

想问这能玩换姿势吗？https://bit.ly/3SReHV5需要草稿这件事对画画废柴来说还是太难了。

作者: tim012345 (风) 2022-10-02 13:10:00

感觉像补色软件? 判断那是啥~上相对应颜色~

作者: liupoyip (萝卜) 2022-10-02 13:15:00

突然想到，如果限制范围在’大头照’，那头发、脸、五官，可能会出现在图片中固定的区域。那训练时把图片加入一些位置的token会不会比较好呢？想到这边我自己也想试试w

作者: npc776 (二次元居民) 2022-10-02 13:19:00

勇仪叫冷门那些凑不出几百张图的不就是尸体了

作者: tim012345 (风) 2022-10-02 13:20:00

用程式跑就好~网络抓合适的图~把取边缘~然后手动改动~

作者: MeiHS (囧) 2022-10-02 13:22:00

多长一根角的多美代

作者: BITMajo (BITMajo) 2022-10-02 13:23:00

搞不好直接把角差到一般AI画的图上比较快既然是专门画勇仪的话，那草稿不是应该不用特别把角画好AI也能补正吗？

作者: tim012345 (风) 2022-10-02 13:27:00

不过做一做就是另一套程式~测试来这个软件

作者: misaka0120 (é‡Žæ ¼ç‚¸å½ˆ) 2022-10-02 13:30:00

不知道加attention 会不会提升xd

作者: BITMajo (BITMajo) 2022-10-02 13:32:00

XDDD角变成猥亵物了正经来说，就是这个AI目前一定要用线搞才能知道要怎么画但你没画角，AI却知道那边该有个红色的角，其实算成功了

作者: misaka0120 (é‡Žæ ¼ç‚¸å½ˆ) 2022-10-02 13:37:00

话说Loss是mseㄇ，还是有其他奇奇怪怪的loss

作者: smart0eddie (smart0eddie) 2022-10-02 13:47:00

Reference-Based Sketch Image Colorization using AAugmented-Self Reference and Dense Semantic CorreCorrespondence以前有看到webtoon 想干类似的事

作者: liupoyip (萝卜) 2022-10-02 13:49:00

题外话，如果应用在画肢体的话，感觉实用的泛用性高了些。不考虑立体感的话，肢体的色彩复杂度应该低很多XD

作者: misaka0120 (é‡Žæ ¼ç‚¸å½ˆ) 2022-10-02 13:50:00

上面这篇cvpr的感觉满厉害的

作者: Vulpix (Sebastian) 2022-10-02 13:51:00

头的话，先换脸方向和表情就好了啦。

作者: converse0201 (Reitiz) 2022-10-02 14:07:00

哇这个

作者: sansiaman 2022-10-02 14:29:00

可以应用到动画产业吧

作者: showwhale (showwhale) 2022-10-02 14:36:00

星熊可爱原po爱很深捏佩服

作者: tim910282 (tim) 2022-10-02 14:56:00

可以找画师进行合作看看，一方面也可以有专业的意见来改善

作者: namirei (哎呀奈米光) 2022-10-02 15:17:00

强

作者: jkkkj123 (ç…ŒåŸ ä¹‹æ²è˜‡) 2022-10-02 15:17:00

有机会开发出一颗球加十字线加指定光源就出图的等级吗

作者: AlianF (左手常驻模式) 2022-10-02 15:46:00

帮老婆上色指日可待

作者: jkkkj123 (ç…ŒåŸ ä¹‹æ²è˜‡) 2022-10-02 16:31:00

原来如此听起来值得期待

作者: dces6107 (爻文˙疯癫˙卫生股长) 2022-10-02 17:25:00

我只是看到东方就进来了

继续阅读

[问题] 钢弹-水星魔女，该看吗？itachi6060 Re: [闲聊] 什么叫观赏性很高的电竞游戏啊??ilove640 [问题] lovelive superstar没甩巴掌是因为NHK吗whcbs Re: [闲聊] 星海争霸二干嘛把游戏做的那么累Rimowa [Vtub] 壱百満天原サロメ彩虹FES 现场reportfinzaghi [Fate] 如果任一御主召唤出杨过会怎样演?tose4433 [闲聊] ‘你生气了吗？’‘没有喔。’sai007788 [闲聊] 钢弹 Evolution 根本不钢弹啊j022015 Re: [闲聊] 什么叫观赏性很高的电竞游戏啊??jiss555 Re: [问题] 动画间谍家家酒13疑问DarthCod

【VR】【8K】妻と兄の不倫SEXを覗いてしまったあの日から僕は覗き見が趣味になってしまった。弥生みづき

はじめての顔射！素人娘のフェラ抜きぶっかけ動画！2

姫野ゆうりエスワン12時間Special

ガスマスクオナホ女4名【大量噴射・ガンギマリ・隔離済み】

顔出し解禁！！マジックミラー便一流百貨店に勤務する清楚で品格漂う美容部員さん初めてのじゅぼじゅぼバキュームノーハンドフェラ編 vol.02 総発射12発！6人全員SEXスペシャル！！上品なお姉さんが心を込めてチ○ポをしゃぶり尽くす神フェラSEX