Re: [闲聊] DeepSeek是不是真的很强? arrenwu PTT批踢踢实业坊

Re: [闲聊] DeepSeek是不是真的很强?

楼主: arrenwu (键盘的战鬼) 2025-02-01 19:56:52

※ 引述《attacksoil (第三方程式)》之铭言：
: → lanjack: 所以我说我看起来像是openai吗？人家查出是怎么偷的也没 02/01 19:14
: → lanjack: 讲，我会通灵是吧？ 02/01 19:14
: → zwxyzxxx: 还有保密文件跟纸糊的一样,对岸民间的随便公司都能偷到 02/01 19:14
: 好像真的很多人不知道偷资料是怎么偷
:
: 稍微说明一下好了如果要偷偷的方法就是花钱用openai 的api 然后用他产生qa pairs
: 来做测试资料集
:
: 看起来跟正常使用差不多真的没那么好抓也跟传统意义上的资安没有关系
: 推 Peurintesa: 确实毕竟openai都没版权意识了== 02/01 19:15
: 推 ZMTL: 其实OpenAI研发副总也在推特上称赞DS的模型蒸馏，所以OpenAI 02/01 19:15
: → ZMTL: “指责”DS偷我蛮好奇出自哪里的 02/01 19:15
: → ZMTL: 然后如果模型蒸馏侵权能被搞成，OpenAI比较需要担心他们被美 02/01 19:16
: → ZMTL: 国一堆出版社告偷资料训练模型会不会成 02/01 19:16
: 他称赞的模型蒸馏是指拿R3来蒸馏llama3还有qwen吧
: 至于拿openai 的输出来重新训练（蒸馏）是否可以告成功我也不清楚但据我所知官方
: 是禁止的但还是有漏洞可钻 (shareGPT之类的）
一般人心目中的正常训练大概是这样
https://i.imgur.com/Ph3DlNC.png
1. 透过网络爬虫拿到很多资料组
2. 把资料组送到AI架构进行训练后得到一个LLM
我看到的“偷资料的指控”则是这样
https://i.imgur.com/OgkvURx.png
1. DS有使用ChatGPT来生成一些回答
2. DS把ChatGPT生成的回答做成新的训练资料，用在训练DS上面
所以这里所谓的“被偷出来的东西”，是那些ChatGPT的回答
...这个是著作权该保护的东西吗？
那ChatGPT在当网络爬虫的时候怎么就很ok？
我记得当初对于网络爬虫训练AI最有利的辩护之一是：
如果训练的数据库的训练素材全部都要付钱，
那以后训练模型就只有超有钱的集团能做，其他人都吃屎。
这类精神也能用在DS上吧？

作者: Peurintesa (芙琳泰沙) 2025-02-01 19:58:00

我在想openai尝试用它被告的经验拿来告别人试试看吧==

作者: lianginptt (我要发了) 2025-02-01 19:59:00

不管啦！阿共就是只会偷，不偷就不是阿共了！

作者: Richun (解放左手的OO之力) 2025-02-01 20:00:00

照那个偷资料的指控来看，OpenAI可以告一堆模型了。

作者: spfy (spfy) 2025-02-01 20:00:00

其实这串后来还在推文的都比较认真讨论了就算只是想酸也会找一些论点能反串这么多篇也是辛苦了欸

作者: attacksoil (击壤) 2025-02-01 20:02:00

我也觉得没道德瑕疵但openai 的policy 就是禁止有没有告成功过不知道https://i.imgur.com/gLWH1Wf.jpeg

作者: SRNOB (SRNOB) 2025-02-01 20:05:00

谁管你closeAI 商用当然被告到死人家开源有金身