Re: [闲聊] 使用大量数据研发AI绘图

楼主: guogu   2025-07-29 08:27:01
※ 引述《ElfFail (秘密)》之铭言:
: 如题
: 看到一篇蛮有趣的东西
: https://i.imgur.com/d6GUwOU.jpeg
: 最近在FB 上看到AI动漫模型“Illistrious”的广告
: 他们在HuggingFace上面,有把自己训练AI用的图集公开(图1)
: 起初想说他们会这样做,或许很有把握自己没有侵权疑虑吧
: 应该是拿自己的AI图去训练AI(不怕越生越丑吗)
: 于是有一些程式基础的我 决定仔细研究一下
: 但结果告诉我……我错了。
: 在“artist_urls”档案里面,每一位画师都被标上了编号id
: 从最顶层的4437,到最底层的391586
: 这是极为庞大的画师人数(图2)
: 让我想起农场中 烙印在每头动物身上的数字
: 而在“artist”档案里面,会看到大量绘师的名字
: 其中亚洲(含台湾)有猫鲸、张熊、空罐王等破万追踪绘师们上榜
: (图3~图8)这时回顾一下“artist_urls”档案
: 猫鲸老师被打上的编号是:150105
: 张熊老师被打上的编号是:144570
: 空罐王老师被打上的编号:38554
: 但猫鲸老师的Twitter明明已写上“Do not use my work for AI”
: 接着打开他们将近20GB的“post.json”档
: 里面是他们用来训练AI模型用的大量图集
: 要知道一个json档,超过3GB,就已经是很惊人的一件事了
: 打开后会发现,图片的编号从2到6899125
: (也就是接近690万)
: 从这些训练图集当中,可以找到每个画师被拿去训练的作品
: 他们也利用大型语言工具,替每张图片上标签,给AI辨识
: 例如空罐王老师苦练画技数年,所肝出的作品
: AI是这样给标签的:
: 1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
: ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
: ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
: ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
: 就只贴几张图,剩的可以去脸书看看
: https://i.imgur.com/9O8VjYL.jpeg
: https://i.imgur.com/1I0vVpS.jpeg
: https://www.facebook.com/share/p/19Fy1t3cyD/
我发现很像很多人对这个编号有很深的误会w
以为这是做模型的人蒐集资料然后还给绘师打上编号还公开之类的
但其实不是这样的 这就只是抓了纸箱上的资料而已
谁家吃饱太闲还自己去搜自己建编号自己帮图片上tag阿==
比如说空罐王的38554
https://i.meee.com.tw/YNbmO2J.png 就是纸箱上同编号
如此而已 做AI会爬资料没错 但是有现成的还要自己爬 怎么可能
作者: EfiwymsiAros (認真發廢文)   2025-07-29 08:31:00
每一位绘师都被标上编号......XD
作者: as3366700 (Evan)   2025-07-29 08:34:00
你就说有没有被编号(x
作者: htps0763 (Fish~月~)   2025-07-29 08:34:00
盗用是一回事,这篇这段看起来就很像那种民俗专家用奇怪的观点去讲科学的东西一样
作者: error405 (流河=L)   2025-07-29 08:35:00
早在AI出现前就已经被抓去编号了上tag了
作者: htps0763 (Fish~月~)   2025-07-29 08:35:00
啊干你要不要说你注册一个网站他发给你uid就是等于你像动物一样打上编号
作者: pikachu2421 (皮卡@めぐ民)   2025-07-29 08:35:00
要说上编号的话 pixiv user id也是编号XD
作者: error405 (流河=L)   2025-07-29 08:36:00
不知道那种人再看到熊猫会不会气死
作者: attacksoil (击壤)   2025-07-29 08:36:00
那个资料集是标注给图片分类的至少表面上不是给图片生成
作者: htps0763 (Fish~月~)   2025-07-29 08:36:00
他正在用的FB不是也给他一个编号,他有没有觉得很恐怖
作者: zeolas (zeolas)   2025-07-29 08:39:00
日本我不知道啦,但台湾每个人都有身分证号码不是吗XD…
作者: v86861062 (数字人:3)   2025-07-29 08:54:00
推推
作者: ssm3512 (阿坤)   2025-07-29 09:03:00
怎么这边这么歪o.o
作者: as3366700 (Evan)   2025-07-29 09:06:00
最一开始红的NOVEAI就明牌爬纸箱网练模型了,画师名字直接当提示词也是行之有年 有种大家发现火是火的美感
作者: inte629l   2025-07-29 09:11:00
我反而讶异绘师不知道纸箱id,想说他们应该会上去查自己才对...
作者: Nitricacid (硝酸酸)   2025-07-29 09:33:00
码农:想命名什么有够烦的随便上个流水号 绘师:这号码肯定有我们不知道的个别意义
作者: sezna (sezna)   2025-07-29 09:53:00
就直接纸箱id, 自动打标而已,蓝色窗帘开太大

Links booklink

Contact Us: admin [ a t ] ucptt.com