楼主:
ElfFail (秘密)
2025-07-29 00:39:35如题
看到一篇蛮有趣的东西
https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI动漫模型“Illistrious”的广告
他们在HuggingFace上面,有把自己训练AI用的图集公开(图1)
起初想说他们会这样做,或许很有把握自己没有侵权疑虑吧
应该是拿自己的AI图去训练AI(不怕越生越丑吗)
于是有一些程式基础的我 决定仔细研究一下
但结果告诉我……我错了。
在“artist_urls”档案里面,每一位画师都被标上了编号id
从最顶层的4437,到最底层的391586
这是极为庞大的画师人数(图2)
让我想起农场中 烙印在每头动物身上的数字
而在“artist”档案里面,会看到大量绘师的名字
其中亚洲(含台湾)有猫鲸、张熊、空罐王等破万追踪绘师们上榜
(图3~图8)这时回顾一下“artist_urls”档案
猫鲸老师被打上的编号是:150105
张熊老师被打上的编号是:144570
空罐王老师被打上的编号:38554
但猫鲸老师的Twitter明明已写上“Do not use my work for AI”
接着打开他们将近20GB的“post.json”档
里面是他们用来训练AI模型用的大量图集
要知道一个json档,超过3GB,就已经是很惊人的一件事了
打开后会发现,图片的编号从2到6899125
(也就是接近690万)
从这些训练图集当中,可以找到每个画师被拿去训练的作品
他们也利用大型语言工具,替每张图片上标签,给AI辨识
例如空罐王老师苦练画技数年,所肝出的作品
AI是这样给标签的:
1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
就只贴几张图,剩的可以去脸书看看
https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/
作者:
zChika (滋琪卡)
2025-07-29 00:42:00原来是偷的,检举吧
基本上都是这样 只差在有没有公开而且不只是绘画领域 其他也都是这样
作者:
AJwan (阿全)
2025-07-29 00:49:00跟盗版漫画一样 管不了
作者:
Golbeza (Golbeza)
2025-07-29 00:52:00就说是大量侵权还很多人不信
这个dataset也不只是这个paper用 其实传统的资料探勘情感分析dataset也都是真人贴文 只是纯文字而已gpt之类的llm就更不用说了
就某站的dataset吧,看容量快8TBpost id取mod 1000当 bucket
作者:
yellowhow (┴─┴~\( ̄□ ̄#)\)
2025-07-29 00:54:00没寄生绘师就只能搞拟真那种图而已真用就算了,假掰说自己没用真的很讨厌
作者:
lou3612 (鱼)
2025-07-29 00:55:00怎摸会有人把训练资料公开
作者:
dalyadam (统一狮加油)
2025-07-29 01:02:00老实说 几乎每个AI模型都难免用到没授权的绘师只差在有没有说出来了
novlai时代就在这样搞了 画师名字直接就能当提示词
把绘师简化成编号真够侮辱人的,但这种ai负面文章不会推爆的
现在各家AI飙车飙那么凶也是为了在相关规范法令被重视以前尽可能偷跑更多一点 法律没说这样不行我就尽量抢
其实更多的是政府也知道是在偷 但全部都在偷谁禁谁就落后 惨
我记得川普已经开绿灯说AI使用是fair use了
作者: trh123h 2025-07-29 01:55:00
毕竟都是军备竞赛的材料
这种模型本来就是靠偷阿 只是敢公开也是蛮厉害的大概就是真的笃定反正你图抓不了我
作者:
k254369 (fjsocjs)
2025-07-29 02:01:00好用的模型 就算你告一个还会有下一个 这就是ai时代
作者: clovewind 2025-07-29 02:03:00
这不是早就知道的东西吗
作者:
zen777 (批踢踢æ¦ç¥ž)
2025-07-29 02:18:00可耻 果然只要是Ai生成的图都是垃圾
ai饲料是现在的早期阶段 成熟期的模型不需要人类喂
作者: low1219 (狗才加班) 2025-07-29 06:47:00
笑死 不接受AI就等著被淘汰
作者:
b160160 (HG Life is Foo~~~)
2025-07-29 07:00:00身为机器学习时代自己蒐集资料开始玩ai 的人 看到现在这些大公司的玩法 真的让人觉得很寒心
作者: mirarearia 2025-07-29 08:12:00
就恶心啊
说侵权的倒是说说犯了哪条法律啊事实就是你说禁止ai学习不具有法律效益ai学图违规那人学图是不是也违规
作者: vhik4596 (白头翁) 2025-07-29 08:24:00
这几乎等于是偷东西还把被害者编号,这也太变态了吧
作者: Ceferino (麦茶多多) 2025-07-29 08:33:00
现在的AI公司谁不是这样玩的,google meta 微软都一样
作者:
Yoimiya (烟花易逝人情长存)
2025-07-29 08:50:00这不是早就知道了吗 你以为写个禁止AI 人家就不会用?
作者: ssm3512 (阿坤) 2025-07-29 09:03:00
ai仔就是出生啊 哪管你人类道德
只是拿来学就真的没侵权疑虑呀, 现在要抓也是抓AI生出画师画的原角色, 老鼠就拿这个去告Midjourney
作者:
yellowhow (┴─┴~\( ̄□ ̄#)\)
2025-07-29 09:46:00法律没订完善之前人家就是无敌只是一边偷一边蹭还要装自己很干净真是假掰...
作者: cbpa 2025-07-29 09:47:00
真难过
作者: haseyo25 2025-07-29 10:09:00
最惨的接受没有国家立即的订法律来规范
作者:
Dayton (今夜如此,夜夜皆然。)
2025-07-29 10:42:00记得很多网站都有写使用条款 授权ooxx用他们网站po图一定要按同意 浮水印有没有效力不知道