[闲聊] 使用大量数据研发AI绘图

楼主: ElfFail (秘密)   2025-07-29 00:39:35
如题
看到一篇蛮有趣的东西
https://i.imgur.com/d6GUwOU.jpeg
最近在FB 上看到AI动漫模型“Illistrious”的广告
他们在HuggingFace上面,有把自己训练AI用的图集公开(图1)
起初想说他们会这样做,或许很有把握自己没有侵权疑虑吧
应该是拿自己的AI图去训练AI(不怕越生越丑吗)
于是有一些程式基础的我 决定仔细研究一下
但结果告诉我……我错了。
在“artist_urls”档案里面,每一位画师都被标上了编号id
从最顶层的4437,到最底层的391586
这是极为庞大的画师人数(图2)
让我想起农场中 烙印在每头动物身上的数字
而在“artist”档案里面,会看到大量绘师的名字
其中亚洲(含台湾)有猫鲸、张熊、空罐王等破万追踪绘师们上榜
(图3~图8)这时回顾一下“artist_urls”档案
猫鲸老师被打上的编号是:150105
张熊老师被打上的编号是:144570
空罐王老师被打上的编号:38554
但猫鲸老师的Twitter明明已写上“Do not use my work for AI”
接着打开他们将近20GB的“post.json”档
里面是他们用来训练AI模型用的大量图集
要知道一个json档,超过3GB,就已经是很惊人的一件事了
打开后会发现,图片的编号从2到6899125
(也就是接近690万)
从这些训练图集当中,可以找到每个画师被拿去训练的作品
他们也利用大型语言工具,替每张图片上标签,给AI辨识
例如空罐王老师苦练画技数年,所肝出的作品
AI是这样给标签的:
1girl, blonde_hair , breasts, brown-tinted_eyewear, brown_eyes, cleavage, coff
ee, cup, earrings, grey_sports_bra, hat, jewelry, looking_at_viewer, looking_o
ver_eyewear, mooncake, plant, potted_plant, purple_hair, sauce, short_hair, sm
ile, solo, spoon, sports_bra, sunglasses, teacup, teeth, tinted_eyewear
就只贴几张图,剩的可以去脸书看看
https://i.imgur.com/9O8VjYL.jpeg
https://i.imgur.com/1I0vVpS.jpeg
https://www.facebook.com/share/p/19Fy1t3cyD/
作者: KyuubiKulama (九喇嘛)   2025-07-29 00:41:00
只能检举下架了
作者: zChika (滋琪卡)   2025-07-29 00:42:00
原来是偷的,检举吧
作者: gm79227922 (mr.r)   2025-07-29 00:45:00
基本上都是这样 只差在有没有公开而且不只是绘画领域 其他也都是这样
作者: AJwan (阿全)   2025-07-29 00:49:00
跟盗版漫画一样 管不了
作者: kimokimocom (A creative way)   2025-07-29 00:51:00
抓别人作品训练 这就是AI
作者: Golbeza (Golbeza)   2025-07-29 00:52:00
就说是大量侵权还很多人不信
作者: vincent8914 (群青)   2025-07-29 00:53:00
这个dataset也不只是这个paper用 其实传统的资料探勘情感分析dataset也都是真人贴文 只是纯文字而已gpt之类的llm就更不用说了
作者: inte629l   2025-07-29 00:54:00
就某站的dataset吧,看容量快8TBpost id取mod 1000当 bucket
作者: yellowhow (┴─┴~\( ̄□ ̄#)\)   2025-07-29 00:54:00
没寄生绘师就只能搞拟真那种图而已真用就算了,假掰说自己没用真的很讨厌
作者: lou3612 (鱼)   2025-07-29 00:55:00
怎摸会有人把训练资料公开
作者: dalyadam (统一狮加油)   2025-07-29 01:02:00
老实说 几乎每个AI模型都难免用到没授权的绘师只差在有没有说出来了
作者: shawncarter (Duffy Huang)   2025-07-29 01:06:00
AI就是打着科技进步的名号大量偷窃别人的心血
作者: as3366700 (Evan)   2025-07-29 01:11:00
novlai时代就在这样搞了 画师名字直接就能当提示词
作者: RabbitHorse (赤兔马)   2025-07-29 01:17:00
把绘师简化成编号真够侮辱人的,但这种ai负面文章不会推爆的
作者: ym951305 (流浪猫)   2025-07-29 01:20:00
偷图片训练 ai 可耻
作者: felixr0123 (felixr0123)   2025-07-29 01:25:00
人类究竟只是ai的饲料罢了
作者: willytp97121 (rainwalker)   2025-07-29 01:39:00
现在各家AI飙车飙那么凶也是为了在相关规范法令被重视以前尽可能偷跑更多一点 法律没说这样不行我就尽量抢
作者: gm79227922 (mr.r)   2025-07-29 01:43:00
其实更多的是政府也知道是在偷 但全部都在偷谁禁谁就落后 惨
作者: meatybobby (Bobby)   2025-07-29 01:44:00
我记得川普已经开绿灯说AI使用是fair use了
作者: trh123h   2025-07-29 01:55:00
毕竟都是军备竞赛的材料
作者: Jiajun0724 (川崎忍者)   2025-07-29 01:57:00
这种模型本来就是靠偷阿 只是敢公开也是蛮厉害的大概就是真的笃定反正你图抓不了我
作者: k254369 (fjsocjs)   2025-07-29 02:01:00
好用的模型 就算你告一个还会有下一个 这就是ai时代
作者: clovewind   2025-07-29 02:03:00
这不是早就知道的东西吗
作者: SweetBreaker (甜点破坏者)   2025-07-29 02:03:00
天下第一抢劫大赛
作者: smart0eddie (smart0eddie)   2025-07-29 02:06:00
吉他
作者: zen777 (批踢踢武神)   2025-07-29 02:18:00
可耻 果然只要是Ai生成的图都是垃圾
作者: sameber520 (请给我萝莉)   2025-07-29 02:53:00
ai饲料是现在的早期阶段 成熟期的模型不需要人类喂
作者: error405 (流河=L)   2025-07-29 03:30:00
d站这样标这样分都十几二十年了好吗..
作者: rockmanx52 (ゴミ丼 わがんりんにゃれ)   2025-07-29 04:00:00
这个爬虫最扯的其实是连噗浪都扫
作者: WindSucker (抽风者)   2025-07-29 05:19:00
早就授权给社群网站了
作者: low1219 (狗才加班)   2025-07-29 06:47:00
笑死 不接受AI就等著被淘汰
作者: b160160 (HG Life is Foo~~~)   2025-07-29 07:00:00
身为机器学习时代自己蒐集资料开始玩ai 的人 看到现在这些大公司的玩法 真的让人觉得很寒心
作者: xsdferty035 (Free逛逛)   2025-07-29 07:32:00
AI就是这样 网络上所有的图片和文字都是训练素材
作者: starsheep013 (星绒绵羊)   2025-07-29 07:51:00
不意外
作者: mirarearia   2025-07-29 08:12:00
就恶心啊
作者: Kurumi2000 (夕立我最爱poi)   2025-07-29 08:14:00
?这不是早就知道的事情吗 还有人不知道吗
作者: EfiwymsiAros (認真發廢文)   2025-07-29 08:22:00
那你可以告他
作者: h0103661 (路人喵)   2025-07-29 08:23:00
说侵权的倒是说说犯了哪条法律啊事实就是你说禁止ai学习不具有法律效益ai学图违规那人学图是不是也违规
作者: vhik4596 (白头翁)   2025-07-29 08:24:00
这几乎等于是偷东西还把被害者编号,这也太变态了吧
作者: qaz95677 (八嘎拉)   2025-07-29 08:32:00
果然ai仔=零元购
作者: Ceferino (麦茶多多)   2025-07-29 08:33:00
现在的AI公司谁不是这样玩的,google meta 微软都一样
作者: Yoimiya (烟花易逝人情长存)   2025-07-29 08:50:00
这不是早就知道了吗 你以为写个禁止AI 人家就不会用?
作者: ssm3512 (阿坤)   2025-07-29 09:03:00
ai仔就是出生啊 哪管你人类道德
作者: yoyun10121 (yoyo)   2025-07-29 09:05:00
只是拿来学就真的没侵权疑虑呀, 现在要抓也是抓AI生出画师画的原角色, 老鼠就拿这个去告Midjourney
作者: sincere77 (台湾会更好)   2025-07-29 09:10:00
只要没违法什么缺德事都干得出来,不愧是AI仔
作者: awenracious (Racious)   2025-07-29 09:37:00
有够恶心
作者: yellowhow (┴─┴~\( ̄□ ̄#)\)   2025-07-29 09:46:00
法律没订完善之前人家就是无敌只是一边偷一边蹭还要装自己很干净真是假掰...
作者: cbpa   2025-07-29 09:47:00
真难过
作者: haseyo25   2025-07-29 10:09:00
最惨的接受没有国家立即的订法律来规范
作者: Dayton (今夜如此,夜夜皆然。)   2025-07-29 10:42:00
记得很多网站都有写使用条款 授权ooxx用他们网站po图一定要按同意 浮水印有没有效力不知道

Links booklink

Contact Us: admin [ a t ] ucptt.com