https://tw.news.yahoo.com/anthropic%E6%8E%A8ai%E4%BB%A3%E7%90%86-%E6%96%B0-%E4%BB%A3claude-3-5-075247497.html
Claude 3.5 Sonnet大升级!新功能“电脑操作”可解放双手,能代订机票的AI秘书不远
了?
数位时代
AI新创公司Anthropic于10月22日发布升级版Claude 3.5 Sonnet,以及全新模型Claude
3.5 Haiku!
更新后的Claude 3.5 Sonnet, 开放用户测试“电脑操作”(Computer Use)功能,这项
技术允许AI能模拟人类操作鼠标的动作,透过电脑的应用程式完成多步骤任务,亦即“AI
代理”功能。
Anthropic也宣布在10月底释出全新迷你模型Claude 3.5 Haiku,其在许多智慧基准测试
上超过了上一代最大模型Claude 3 Opus,“在编码任务上尤其强大。”
Claude 3.5 Sonnet评测表现大升级
升级后的Claude 3.5 Sonnet在效能上超越前一代,特别是在编码、工具使用及推理任务
中的表现有着显著提升。
除了MATH略逊Gemini 1.5 Pro之外, Claude 3.5 Sonnet在其它评测都胜过Gemini 1.5
Pro、Gemini 1.5 Flash、GPT-4o与GPT-4o mini。
在与撰写程式相关的HummaEval及SWE-bench Verified评测中,Claude 3.5 Sonnet夺得了
93.7%及49%的成绩,高过前一个版本的88.1%与40.6%。
另一个TAU-bench,是用来测试AI代理工具于真实世界场景中的表现,能否处理复杂且多
步骤的任务,并与使用者进行自然对话。 Claude 3.5 Sonnet在零售领域的表现达到
69.2%,在航空领域的表现为46%,高于前一版的62.6%与36%。
靠AI订机票?代理功能值得期待
Claude 3.5 Sonnet的“电脑操作”(Computer Use)功能,能够模拟人类操作电脑,包
括点击按钮、移动鼠标光标、输入文字等操作,甚至能够进行网站导和即时网页浏览。
Anthropic的科学总监贾里德.卡普兰(Jared Kaplan)表示:“Claude 3.5 Sonnet可以
理解并与任何桌面应用程式互动,完成数十甚至数百个步骤的任务,这是AI技术在实体世
界应用中迈出的重要一步。”
亚马逊是最早测试“电脑操作”功能来简化内部流程的企业之一,其他初期测试者也包括
Asana、Canva和Notion等知名企业,它们尝试将功能应用于自动化任务中,例如设计与编
辑流程、表单填写、数据处理等。Replit则利用Claude 3.5开发了一个自动验证应用程式
功能,能在App的开发过程中自动检查并验证代码。
Anthropic计划未来将“电脑操作”功能扩展到更多应用场景,例如让AI自动完成预订航
班、安排会议或报销表单填写等,进一步提升工作效率。
适合中小企业,更小更快的Claude 3.5 Haiku模型
Anthropic也宣布预计在10月底推出全新Claude 3.5 Haiku模型,这款模型是Claude家族
中速度最快的产品。
根据官方说法,Claude 3.5 Haiku以与前代Claude 3 Haiku相同的成本与速度,展现了更
强大的综合能力,并在许多智能评测中超越了此前的最大模型Claude 3 Opus。在
SWE-bench编码评测中,以40.6%的成绩胜过多款主流模型。
Claude 3.5 Haiku将先以纯文字模式推出,未来也将支援图像输入功能。开发者可以透过
Anthropic的API、Amazon Bedrock与Google Cloud的Vertex AI等平台进行使用。
如何防范代理AI失控?
尽管“电脑操作”功能开启了AI应用的新可能性,但AI代理能模拟人类的操作,也意味着
可能被滥用。过往的研究发现,AI模型在受到越狱攻击(jailbreaking)时,有可能执行
不法行为,例如购买假证件或发布虚假讯息。对此,Anthropic也在“电脑操作”功能的
开发过程中采取了多项预防措施。
首先,Claude 3.5 Sonnet在训练过程中并未使用用户的萤幕截图或输入内容,确保模型
不会接触到用户的隐私资料。
此外,Anthropic还开发了一系列分类器,能够在AI执行被认为是高风险的行动时即时识
别,并引导AI远离高风险行动。例如,在社交媒体上发布资讯、创建帐户或与政府网站互
动,以减少风险。
Anthropic也会保留由“电脑操作”功能捕捉的萤幕截图,保存期限至少为30天,若有合
法需求,Anthropic也会依据法律程序配合调查。
心得:连操作电脑都不需要了 没人类工程师的事了?公司不用叫HR帮忙叫外卖了?