楼主:
derekhsu (è¯éº—的天下無雙)
2025-01-30 00:39:16※ 引述《wenchinhsieh (windman)》之铭言:
: enAI是聊天机器人ChatGPT的开发商。
: 蒸馏技术可让开发者利用更大、更强的模型输出成果,在较小模型获得更出色的表现,并
: 让他们在特定任务上以更低廉的成本得到类似结果。
这段一定很多人没看懂。
正确的说法是,蒸馏可以让较小的模型(学生)在特定任务上得到比原本的小模型更好,
近似于大模型(教师)的结果。
近似,就不可能比教师模型更好,只会更差。另外由于OpenAI没有开源,所以这种叫做
黑箱蒸馏。如果可以蒸馏把模型变小可以维持原来的品质,那就一直蒸馏一直蒸馏蒸馏
到1K大小好不好?
还有,他有提到“特定领域”,也就是说是只是一个限定的范围,而不像是OpenAI或是
DeepSeek要作的是通用的LLM。
你不可能靠蒸馏的方式把模型变小还能在通用领域达到跟教师模型不相上下的水准,这
是违反自然法则的。
另外,使用OpenAI来前处理基本上已经是业界不说的常态,Github上甚至有微调方法直
接教你绑订OpenAI来作蒸馏,只要你不要做出会威胁到OpenAI的东西,他是不会理的,
网络上几百个开源模型都是这样作出来的。
如果OpenAI只能找到这个理由去argue,而不是针对他释出的权重或是算法进行争论,
只代表这东西是真货。
最后是有关于证据的问题,现在的问题是,OpenAI根本不能提出证据,因为OpenAI已经
在他们的使用条款说过使用API的条款如下:
"""
根据 OpenAI 的资料使用政策,自 2023 年 3 月 1 日起,除非您明确选择与 OpenAI 分
享您的资料,否则 OpenAI 不会使用透过 API 提交的资料来训练或改进其模型。然而,
为了监控滥用行为,OpenAI 会将透过 API 传送的资料保留最多 30 天,之后会将其删除
,除非法律另有规定。
"""
也就是说,OpenAI如果拿出使用纪录,那就表示OpenAI根本没有遵守使用条款,偷偷纪录
用户的资料。
那你如果没有保留用户的资料,那现在是要用什么证据来调查?