[新闻] OpenAI：纽约时报雇用骇客攻击我 jackliao1990 PTT批踢踢实业坊

[新闻] OpenAI：纽约时报雇用骇客攻击我

楼主: jackliao1990 (jack) 2024-02-28 15:10:56

https://www.qbitai.com/2024/02/124120.html
梦晨发自凹非寺
堂堂AI巨头，怎么就被一家报纸雇用骇客攻击了？
《纽约时报》诉OpenAI侵犯版权索赔数十亿美元案最新进展：
在最新提交的法庭文件中，OpenAI声称《纽约时报》花钱找骇客攻击ChatGPT，人为制造
侵权结果。
使用欺骗性手段进行数万次尝试，才得到高度异常结果。
这项诉讼要是输了，对OpenAI来说可能是毁灭性打击。
数十亿美元罚款都是小事了，根据法律界的分析，连ChatGPT都可能被迫全部擦除，重头
开始训练。
大家都知道，美国法律要遵守先前判例的原则。
在过去几十年的科技公司vs版权方的案子中，法院可不总是站在科技公司这边。
这次OpenAI主张《纽约时报》雇用骇客，真的非常关键了。
纽约时报如何攻击ChatGPT
去年12月，《纽约时报》起诉OpenAI和他的微软爸爸，表示ChatGPT和Copilot都未经许可
利用其内容训练。
当时，《纽约时报》展示了足足 100个GPT-4一字不落背出真实报道段落的例子。
这样一来，ChatGPT就可以算是报纸的竞争品。
OpenAI这边，辩称这是一个漏洞，并承诺已经在修复。
具体来说，当AI产生与训练资料非常相似的样本时，可能发生 “资料回流” （
regurgitation of training data），类似于人类听到上句就会条件反射般的接下句，谁
也拦不住。
他们认为《纽约时报》利用这个漏洞，使用特殊的提示词要求ChatGPT输出特定文章的开
头，并继续要求输出下一句话。
OpenAI预计需要反复尝试上万次才能产生这些整篇的文章，而且还不是按顺序的，而是
“分散和无序的引用”。
正常人不可能这么使用ChatGPT，也不会把它当成《纽约时报》的替代品。
OpenAI指责《纽约时报》故意误导法庭，“使用省略号来掩盖”ChatGPT吐出报道片段的
顺序，造成了“ChatGPT产生了文章的连续和不间断片段的错误印象”。
而《纽约时报》从来没有披露过他们产生这些证据的具体提示词，以及是否修改了系统提
示词等等细节，就挺心虚的。
至于提示词攻击算不算骇客行为，有网友表示怎么不算，如果认可提示词工程真的算一种
工程，那提示词攻击就算攻击。
现在OpenAI主要从两个地方反击：
一是主张这种提示词攻击公然违反了OpenAI的产品使用条款。
二是主张网络上公开内容是可以合理使用的。
这就要抱紧谷歌大腿了，20年前谷歌整了个大活，扫描数百万本图书放到搜寻引擎上，被
一堆出版商和作家协会给告了。
官司反反复复打了10多年，最后谷歌艰难的赢了，被判这些数据是合理使用。
当时裁决认为用户只能看到图书的简短片段，永远无法从受版权保护的书籍中恢复较长的
段落。
谷歌制作书籍的数位副本以提供搜寻功能是一种变革性的使用，它透过提供有关原告
书籍的资讯来增加公众知识，而不向公众提供书籍的实质替代品。
不光OpenAI，同样面临版权诉讼的Stability AI等AI影像生成公司，都在坚持他们做的事
与Google当年一样：
都是 “学习训练资料中关于作品的讯息，但不复制作品本身的创意表达” 。
然鹅还有一个有争议的地方，AIGC产品确实会产生创意的作品，与接受训练的作品直接竞
争。
所以这一批AI公司面临的危机，比Google当年面临危机还要大一些。
再不卖数据就太晚了
实际上，像《纽约时报》这样和AI闹得不愉快的内容公司是少数。
更多网络公司都在争先恐后出售自己的数据，反正这些AI公司又不是没钱。
Sora视频，就被找出明显有OpenAI合作伙伴 Shutterstock 素材的影子。
上周，“美国贴吧” Reddit 刚跟Google签了协议，6千万美元一年，让Google可以即时
取得论坛资料用于AI训练。
OpenAI这边肯定早就用上了，毕竟山姆奥特曼本人就和Reddit公司关系匪浅，而且早年比
GPT-1还早的原型研究，就是在Reddit数据上训练聊天机器人。
现在 Tumblr 和 WordPress 也赶紧跟进，把用户资料卖给OpenAI和Midjourney。
虽然他们的用户听到这个消息都挺不高兴的，但是没办法，当初注册帐号的时候可是必须
同意使用条款，其中把数据归属早就安排明白了。
当然AI公司买过来这些数据也不是直接塞AI嘴里就好使的，学术界现在也研究如何有效率
地运用。
刚刚还有语言模型训练的资料选择综述出炉，提出用于比较和对比不同的资料选择方法
的框架，也倡议：
加速资料选择研究，如开发直接评估资料品质的指标，减少对昂贵模型训练的依赖。
更好地理解资料分布的特性，以便更精确地选择资料。
将计算时间从模型训练转移到资料处理。
随着AI生成的内容在网络上铺开，后面再训练大模型的都绕不开使用AI生成的数据了，就
说多少家大模型“承认”过自己是OpenAI训练的了吧。
同样中文资料也绕不开文心一言，GoogleGemini都闹过笑话（已修复）。
坐拥大量人类古法手打数据的网络公司，再不抓紧卖，AI就能自给自足了。
参考连结：
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf
[2]https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/
[3]https://arxiv.org/abs/2402.16827

作者: nicolaschen2 (ii) 2024-02-29 04:41:00

看看一楼能贴出啥毛

作者: darkangel119 (星星的眷族) 2024-02-29 06:45:00

白莲教再起XD

继续阅读

[新闻] 联电员工酬劳出炉平均每人分红近42万元KotoriCute [情报] 阳交大打造校内ChatGPT“校园智多星”LevLandau [请益] GG仓储助工majaja5566 [新闻] 日经：俄购台湾精密仪器造战车透过白俄Reewalker [新闻] 产学三大咖示警！美国芯片法伤害台积电 qazxc1156892 [新闻] 微软表示多国骇客正利用ChatGPT增进网络攻击功力，解决之道pl132 [请益] 工作请益Johnson1005 [新闻] 交大见证台湾半导体产业起飞GuanLaoBan [请益] offer请益alphaMeow [新闻] 华为战 MWC 2024，推“通讯产业首个大模pl132