[新闻] OpenAI:纽约时报雇用骇客攻击我

楼主: jackliao1990 (jack)   2024-02-28 15:10:56
https://www.qbitai.com/2024/02/124120.html
梦晨发自凹非寺
堂堂AI巨头,怎么就 被一家报纸雇用骇客攻击 了?
《纽约时报》诉OpenAI侵犯版权索赔数十亿美元案最新进展:
在最新提交的法庭文件中,OpenAI声称《纽约时报》花钱找骇客攻击ChatGPT,人为制造
侵权结果。
使用欺骗性手段进行数万次尝试,才得到高度异常结果。
这项诉讼要是输了,对OpenAI来说可能是毁灭性打击。
数十亿美元罚款都是小事了,根据法律界的分析, 连ChatGPT都可能被迫全部擦除,重头
开始训练 。
大家都知道,美国法律要遵守先前判例的原则。
在过去几十年的科技公司vs版权方的案子中,法院可不总是站在科技公司这边。
这次OpenAI主张《纽约时报》雇用骇客,真的非常关键了。
纽约时报如何攻击ChatGPT
去年12月,《纽约时报》起诉OpenAI和他的微软爸爸,表示ChatGPT和Copilot都未经许可
利用其内容训练。
当时,《纽约时报》展示了足足 100个GPT-4一字不落背出真实报道段落的例子 。
这样一来,ChatGPT就可以算是报纸的竞争品。
OpenAI这边,辩称这是一个漏洞,并承诺已经在修复。
具体来说,当AI产生与训练资料非常相似的样本时,可能发生 “资料回流” (
regurgitation of training data),类似于人类听到上句就会条件反射般的接下句,谁
也拦不住。
他们认为《纽约时报》利用这个漏洞,使用特殊的提示词要求ChatGPT输出特定文章的开
头,并继续要求输出下一句话。
OpenAI预计 需要反复尝试上万次才能产生这些整篇的文章 ,而且还不是按顺序的,而是
“分散和无序的引用”。
正常人不可能这么使用ChatGPT,也不会把它当成《纽约时报》的替代品。
OpenAI指责《纽约时报》故意误导法庭,“使用省略号来掩盖”ChatGPT吐出报道片段的
顺序,造成了“ChatGPT产生了文章的连续和不间断片段的错误印象”。
而《纽约时报》从来没有披露过他们产生这些证据的具体提示词,以及是否修改了系统提
示词等等细节,就挺心虚的。
至于提示词攻击算不算骇客行为,有网友表示怎么不算,如果认可提示词工程真的算一种
工程,那提示词攻击就算攻击。
现在OpenAI主要从两个地方反击:
一是主张这种 提示词攻击公然违反了OpenAI的产品使用条款 。
二是主张 网络上公开内容是可以合理使用的 。
这就要抱紧谷歌大腿了,20年前谷歌整了个大活,扫描数百万本图书放到搜寻引擎上,被
一堆出版商和作家协会给告了。
官司反反复复打了10多年,最后谷歌艰难的赢了,被判这些数据是合理使用。
当时裁决认为用户只能看到图书的简短片段,永远无法从受版权保护的书籍中恢复较长的
段落。
谷歌制作书籍的数位副本以提供搜寻功能是一种变革性的使用,它透过提供有关原告
书籍的资讯来增加公众知识,而不向公众提供书籍的实质替代品。
不光OpenAI,同样面临版权诉讼的Stability AI等AI影像生成公司,都在坚持他们做的事
与Google当年一样:
都是 “学习训练资料中关于作品的讯息,但不复制作品本身的创意表达” 。
然鹅还有一个有争议的地方,AIGC产品确实会产生创意的作品,与接受训练的作品直接竞
争。
所以这一批AI公司面临的危机,比Google当年面临危机还要大一些。
再不卖数据就太晚了
实际上,像《纽约时报》这样和AI闹得不愉快的内容公司是少数。
更多网络公司都在争先恐后出售自己的数据,反正这些AI公司又不是没钱。
Sora视频,就被找出明显有OpenAI合作伙伴 Shutterstock 素材的影子。
上周,“美国贴吧” Reddit 刚跟Google签了协议,6千万美元一年,让Google可以即时
取得论坛资料用于AI训练。
OpenAI这边肯定早就用上了,毕竟山姆奥特曼本人就和Reddit公司关系匪浅,而且早年比
GPT-1还早的原型研究,就是在Reddit数据上训练聊天机器人。
现在 Tumblr 和 WordPress 也赶紧跟进,把用户资料卖给OpenAI和Midjourney。
虽然他们的用户听到这个消息都挺不高兴的,但是没办法,当初注册帐号的时候可是必须
同意使用条款,其中把数据归属早就安排明白了。
当然AI公司买过来这些数据也不是直接塞AI嘴里就好使的,学术界现在也研究如何有效率
地运用。
刚刚还有 语言模型训练的资料选择综述 出炉,提出用于比较和对比不同的资料选择方法
的框架,也倡议:
加速资料选择研究,如开发直接评估资料品质的指标,减少对昂贵模型训练的依赖。
更好地理解资料分布的特性,以便更精确地选择资料。
将计算时间从模型训练转移到资料处理。
随着AI生成的内容在网络上铺开,后面再训练大模型的都绕不开使用AI生成的数据了,就
说多少家大模型“承认”过自己是OpenAI训练的了吧。
同样中文资料也绕不开文心一言,GoogleGemini都闹过笑话(已修复)。
坐拥大量人类古法手打数据的网络公司,再不抓紧卖,AI就能自给自足了。
参考连结:
[1]https://s3.documentcloud.org/documents/24443836/nysd-case-612697.pdf
[2]https://arstechnica.com/tech-policy/2024/02/openai-accuses-nyt-of-hacking-chatgpt-to-set-up-copyright-suit/
[3]https://arxiv.org/abs/2402.16827
作者: nicolaschen2 (ii)   2024-02-29 04:41:00
看看一楼能贴出啥毛
作者: darkangel119 (星星的眷族)   2024-02-29 06:45:00
白莲教再起XD

Links booklink

Contact Us: admin [ a t ] ucptt.com