楼主:
guogu 2025-07-29 08:27:01※ 引述《ElfFail (秘密)》之铭言:
: 如题
: 看到一篇蛮有趣的东西
: https://i.imgur.com/d6GUwOU.jpeg
: 最近在FB 上看到AI动漫模型“Illistrious”的广告
: 他们在HuggingFace上面,有把自己训练AI用的图集公开(图1)
: 起初想说他们会这样做,或许很有把握自己没有侵权疑虑吧
: 应该是拿自己的AI图去训练AI(不怕越生越丑吗)
: 于是有一些程式基础的我 决定仔细研究一下
: 但结果告诉我……我错了。
: 在“artist_urls”档案里面,每一位画师都被标上了编号id
: 从最顶层的4437,到最底层的391586
: 这是极为庞大的画师人数(图2)
: 让我想起农场中 烙印在每头动物身上的数字
: 而在“artist”档案里面,会看到大量绘师的名字
: 其中亚洲(含台湾)有猫鲸、张熊、空罐王等破万追踪绘师们上榜
: (图3~图8)这时回顾一下“artist_urls”档案
: 猫鲸老师被打上的编号是:150105
: 张熊老师被打上的编号是:144570
: 空罐王老师被打上的编号:38554
: 但猫鲸老师的Twitter明明已写上“Do not use my work for AI”
: 接着打开他们将近20GB的“post.json”档
: 里面是他们用来训练AI模型用的大量图集
: 要知道一个json档,超过3GB,就已经是很惊人的一件事了
: 打开后会发现,图片的编号从2到6899125
: (也就是接近690万)
: 从这些训练图集当中,可以找到每个画师被拿去训练的作品
: 他们也利用大型语言工具,替每张图片上标签,给AI辨识
: 例如空罐王老师苦练画技数年,所肝出的作品
: AI是这样给标签的:
: 1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
: ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
: ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
: ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
: 就只贴几张图,剩的可以去脸书看看
: https://i.imgur.com/9O8VjYL.jpeg
: https://i.imgur.com/1I0vVpS.jpeg
: https://www.facebook.com/share/p/19Fy1t3cyD/
我发现很像很多人对这个编号有很深的误会w
以为这是做模型的人蒐集资料然后还给绘师打上编号还公开之类的
但其实不是这样的 这就只是抓了纸箱上的资料而已
谁家吃饱太闲还自己去搜自己建编号自己帮图片上tag阿==
比如说空罐王的38554
https://i.meee.com.tw/YNbmO2J.png 就是纸箱上同编号
如此而已 做AI会爬资料没错 但是有现成的还要自己爬 怎么可能