楼主:
arrenwu (键盘的战鬼)
2025-02-01 19:56:52※ 引述《attacksoil (第三方程式)》之铭言:
: → lanjack: 所以我说我看起来像是openai吗?人家查出是怎么偷的也没 02/01 19:14
: → lanjack: 讲,我会通灵是吧? 02/01 19:14
: → zwxyzxxx: 还有保密文件跟纸糊的一样,对岸民间的随便公司都能偷到 02/01 19:14
: 好像真的很多人不知道偷资料是怎么偷
:
: 稍微说明一下好了 如果要偷 偷的方法就是花钱用openai 的api 然后用他产生qa pairs
: 来做测试资料集
:
: 看起来跟正常使用差不多 真的没那么好抓 也跟传统意义上的资安没有关系
: 推 Peurintesa: 确实 毕竟openai都没版权意识了== 02/01 19:15
: 推 ZMTL: 其实OpenAI研发副总也在推特上称赞DS的模型蒸馏,所以OpenAI 02/01 19:15
: → ZMTL: “指责”DS偷我蛮好奇出自哪里的 02/01 19:15
: → ZMTL: 然后如果模型蒸馏侵权能被搞成,OpenAI比较需要担心他们被美 02/01 19:16
: → ZMTL: 国一堆出版社告偷资料训练模型会不会成 02/01 19:16
: 他称赞的模型蒸馏是指拿R3来蒸馏llama3还有qwen吧
: 至于拿openai 的输出来重新训练(蒸馏)是否可以告成功 我也不清楚 但据我所知官方
: 是禁止的 但还是有漏洞可钻 (shareGPT之类的)
一般人心目中的正常训练大概是这样
https://i.imgur.com/Ph3DlNC.png
1. 透过网络爬虫拿到很多资料组
2. 把资料组送到AI架构进行训练后得到一个LLM
我看到的“偷资料的指控”则是这样
https://i.imgur.com/OgkvURx.png
1. DS有使用ChatGPT来生成一些回答
2. DS把ChatGPT生成的回答做成新的训练资料,用在训练DS上面
所以这里所谓的“被偷出来的东西”,是那些ChatGPT的回答
...这个是著作权该保护的东西吗?
那ChatGPT在当网络爬虫的时候怎么就很ok?
我记得当初对于网络爬虫训练AI最有利的辩护之一是:
如果训练的数据库的训练素材全部都要付钱,
那以后训练模型就只有超有钱的集团能做,其他人都吃屎。
这类精神也能用在DS上吧?
我在想openai尝试用它被告的经验拿来告别人试试看吧==
作者:
Richun (解放左手的OO之力)
2025-02-01 20:00:00照那个偷资料的指控来看,OpenAI可以告一堆模型了。
作者:
spfy (spfy)
2025-02-01 20:00:00其实这串后来还在推文的都比较认真讨论了 就算只是想酸也会找一些论点 能反串这么多篇也是辛苦了欸
作者:
SRNOB (SRNOB)
2025-02-01 20:05:00谁管你closeAI 商用当然被告到死 人家开源有金身
其实问题的根源是OpenAI根本不Open应该改成CloseAI被人酸刚好当然酸归酸,人家policy就写很清楚
作者:
astinky (此方のことが大好きだ!)
2025-02-01 20:09:00开源跟金身一点关系都没有吧
作者:
ZMTL (夜风/潇湘 VR板已经开板!)
2025-02-01 20:13:00公司的policy有没有法律效力又是另一回事了
作者:
jojojen (JJJ)
2025-02-01 20:18:00其实严格来讲应该不算偷吧,除非他们是破解OpenAI 的api免费用
8964占占占 deepseek快抓网络文章训练喔
作者:
jojojen (JJJ)
2025-02-01 20:22:00觉得重点在如果实际做法是下面那个,应该把叫OpenAI api的钱也算进成本,不然会害大家白高兴一场(或白紧张一场)
作者: storyo11413 (小便) 2025-02-01 20:23:00
这能叫偷的话 网络可以关掉了
看你不顺眼到时候 你做什么都可以找你麻烦 看你顺眼的时候 就睁只眼闭只眼 现在是什么时期 大家自己心里有数
作者:
nthank (不谢)
2025-02-01 21:04:00我也觉得从道德上来讲deepseek没有问题 而且deepseek还开源了 现在就是站在道德顶点顺便讽刺OpenAI成立初衷是为了向人类共享技术
作者: randolph80 (S4PPH1R3) 2025-02-01 21:33:00
使用者规范有写不能用就是偷,话说回来我要用也会用phi4