[新闻] 开源版“Devin”AI程式设计师炸场:自己

楼主: jackliao1990 (jack)   2024-03-16 13:58:31
开源版“Devin”AI程式设计师炸场:自己分析股票、做报表、建模型
https://www.qbitai.com/2024/03/128153.html
来自GitHub三万Star项目
MetaGPT团队投稿
GitHub三万Star专案MetaGPT上新,号称是“开源Devin”—
推出 资料解释器(Data Interpreter ),能够应对资料即时变更、任务之间复杂的依赖
关系、流程最佳化需求以及执行结果回馈的逻辑一致性等挑战。
话不多说,直接看示范。
可从英伟达股价数据分析收盘价格趋势:
https://tinyurl.com/2bdr95nv
分析数据预测葡萄酒品质:
https://tinyurl.com/45r9hntr
自动抠图删除图片背景:
https://tinyurl.com/36a8efpr
还能针对糖尿病、心脏病等疾病,透过数据分析预测病情进展:
https://tinyurl.com/5274srey
https://tinyurl.com/ytdzfnac
针对水泵传感器读数,进行相关性分析、因果推论、异常侦测等全面分析,预测机器的运
作状态:
https://tinyurl.com/45fxmch8
Data Interpreter 由MetaGPT团队联合北工大学、复旦大学、华东师范大学、河海大学、
加拿大蒙特娄大学、KAUST、圣母大学、厦门大学、香港中文大学(深圳)、香港大学、
耶鲁大学、中国科学院深圳先进技术研究院、中国人民大学共同推出。
除了数据分析,Data Interpreter还能很好地迭代式观察数据,具备建立机器学习模型、
进行数学推理的能力,还能自动回复电子邮件、仿写网站。
在各种资料科学和现实世界任务上,与开源基准相比,Data Interpreter在多种任务上取
得SOTA效能。
在机器学习任务中综合得分从0.86提升至0.95,在MATH资料集上提高了26%,在开放式任
务中任务完成率提升112%。
Data Interpreter一发布,引起不少网友关注,X(原推特)转赞收藏量2.5k+。
网友再次感慨最近科技圈实在太热闹,belike:
这个数据解释器长啥样?
由大模型(LLM)驱动的智能体已经证明了它们在处理复杂任务方面的显著潜力。通过赋
予LLM代码执行能力来提升其问题解决能力正逐渐成为一种趋势,如Code-Interpreter、
OpenInterpreter、TaskWeaver。
然而,在数据科学领域,现有LLM-based智能体的效能仍有待提升。
Data Interpreter提供了一种全新的解决方案,旨在透过增强智能体的任务规划,工具整
合以及推理能力,直面资料科学问题的挑战。
Data Interpreter提出了三个关键技术:
1) 基于分层图结构的动态计划 ,基于分层的图结构进行任务和程式码规划,有效管理
任务间的复杂依赖,灵活应对资料科学任务的即时资料变化;
2) 工具整合与演化 ,透过在程式码产生过程中自动整合程式码片段作为工具,动态嵌
入了资料科学领域所需的领域知识;
3) 基于验证与经验驱动的推理 ,自动在回馈中增强逻辑一致性检测,透过基于置信度
的验证提升执行程式码的逻辑合理性,并借助经验库增强推理能力。
以下我们逐一展开来看。
基于分层图结构的动态计划
这种方法借鉴了自动化机器学习中的层次规划技术,透过层次结构将复杂的资料科学问题
分解为易于管理的小任务,并进一步将这些任务转化为具体的程式码执行动作,从而实现
细致的规划与执行。
分层结构:(a) 一个有组织的任务和动作图,展示了高阶机器学习专案的工作流程,包括
实现专案目标所需的任务依赖和动作序列。 (b) 任务的有向无环图(DAG),以机器操作
状态预测问题为例。 任务图展示了拆解的计划任务,而动作图(也称为执行图)则根据
计划的任务图执行各个节点。 每个节点的执行程式码由LLM转换。
这种动态规划方法赋予了Data Interpreter在任务变化时的适应性,而有向无环图(
Directed acyclic graph)结构则在监控和处理资料科学问题中的任务依赖关系方面展现
出了高效性。
透过这种方式,Data Interpreter能够有效地管理和优化资料科学任务的执行流程,提高
了问题解决的准确性。
https://tinyurl.com/2zw8p4tr
资料解释器的动态计划管理:(a) 透过人工编辑进行计划细化。 左侧图像显示了在图上
经过人工编辑的任务,右侧图像则展示了细化后的计划,包括更新后的任务3.1'、3.2'以
及新增的任务3.3。 (b) 将失败任务的计画进行细化。 任务执行后,如果任务3.3失败,
细化后的计画将整合现有的成功任务,用更新后的任务3.3'取代原任务3.3,并引入新任
务4.1、4.2、4.3和5。
工具整合与进化
在资料科学任务中,任务的多样性与专业性要求是基于LLM框架具备广泛的工具呼叫能力
。 现有的工具呼叫方式往往侷限于API的形式,无法满足任务多样性所带来的动态需求。
Data Interpreter 提出了 工具整合与产生 的方法。 透过工具推荐与组织,能够根据任
务描述,进行任务分类,从而有效选择合适的工具集。
在执行阶段,Data Interpreter根据工具参数描述、工具方法描述文件的结构化讯息,动
态嵌入和调整工具参数,以适应任务的特定需求。
此外,Data Interpreter还能够透过自我进化,从执行经验中抽像出工具的核心功能,形
成通用的程式码片段,整合到工具函数库之中。 这些工具函数可以在未来的任务中重复
使用,从而减少了侦错频率,提高了执行效率。
下图是资料解释器中的工具使用流程,工具建议最初根据任务分类来选择工具,然后根据
任务需求组合多个工具使用:
https://tinyurl.com/36s8nj2m
基于验证与经验驱动的推理
解决数据科学问题需要严谨的数据与逻辑验证过程,现有的研究在解决这一类问题的过程
中,往往依赖于代码执行后的错误检测或异常捕获,这一方式往往会误解代码执行正确即
任务完成,无法发现逻辑错误,难以提升任务实现的有效性。
Data Interpreter 通过结合基于置信度的自动验证(Automated Confidece-based
Verification)策略,显著提升了其在数据科学问题解决中的推理能力。
ACV策略要求Data Interpreter在执行程式码后产生验证程式码并执行验证,根据执行验
证结果校验任务和实作程式码的一致性,类似于白盒测试流程。
在需要更严谨数值回馈的场景中,如使用LLM进行数学推理,Data Interpreter可以增加
多次独立验证,并透过多次结果的置信度排序来进一步提升效果。
另一方面,Data Interpreter利用经验池存储和反思任务执行过程中的经验,能够从过去
的成功和失败中学习代码知识,从而在面对新任务时做出更准确的决策。这种结合实时验
证和经验学习的方法,显著增强了解释器的推理能力,提升了任务的解决质量。
下图以MATH内的一个任务说明基于置信度自动验证流程,虚线框内是自动验证的过程,虚
线框下方根据验证对多个候选答案进行排序:
https://tinyurl.com/33ztvwfp
多工取得新SOTA
在实验部分,Data Interpreter在多个数据科学和现实世界任务上进行了评估。
基准测试
MATH benchmark涵盖了从初等代数到微积分等广泛的数学领域。 这个基准测验不仅测试
了模型对数学知识的掌握程度,也检视了它们在解决复杂数学问题时的推理能力。
为评估Data Interpreter在这一领域的效能,研究团队选择了MATH基准测试中难度最高的
Level-5问题,这些问题涉及计数和机率(C.Prob)、数论(N.Theory)、初等代数(
Prealg )和微积分(Precalc)等四个类别。
如图所示,以Accuracy作为这个任务的评估指标,Data Interpreter在4个类别上都取得
了最好的成绩。 特别是在N.Theory 中,具有Automated Confidence-based
Verification(ACV)策略的Data Interpreter达到了0.81的准确率。
https://tinyurl.com/y3f6fb58
为了测试Data Interpreter的精准和效率,研究团队也设计了ML-Benchmark,这是一个集
合了Kaggle网站上多种经典机器学习任务的测试集。
这些任务不仅涵盖了葡萄酒识别(WR)、Wisconsin乳癌(BCW)、Titanic生存预测等经
典问题,还包括了房价预测(House Prices)、Santander客户交易预测(SCTP)、识别
与年龄相关的状况( ICR)以及Santander价值预测挑战赛(SVPC)等更具挑战性的项目

https://tinyurl.com/mu566ape
透过任务完成率(CR)、归一化表现得分(NPS)和综合得分(CS)这三个关键指标,
Data Interpreter在七项任务上的平均得分高达0.95,远超AutoGen的0.86,提升了10.3
%。
特别是在ICR和SVPC这两个资料集上,Data Interpreter的表现特别出色,分别比AutoGen
提高了24.7%和21.2%。
值得一提的是,Data Interpreter是唯一一个在Titanic、House Prices、SCTP和ICR任务
上得分都超过0.9的框架,这意味着它在机器学习任务中不仅能够完成核心步骤,还能在
执行过程中持续优化任务效果。
另外,为测试Data Interpreter在开放式任务中的表现。 研究人员也整理了一个包含20
个任务的开放式任务基准。
这些任务涵盖了从光学字符辨识(OCR)到迷你游戏生成(MGG)等多个领域,包括网络搜
寻和爬虫(WSC)、电子邮件自动回复(ER)、网页模仿(WPI)、图像背景移除( IBR)
、文字转影像(T2I)、影像到HTML程式码产生(I2C)等多样化的挑战。
然后将Data Interpreter与AutoGen和OpenInterpreter这两个基准模型进行了比较。 每
个框架对每个任务进行了三次实验,以平均完成率作为评估标准。
结果显示,Data Interpreter在开放式任务上的平均完成率为0.97,与AutoGen相比大幅
提高了112%。 对于去除影像背景(IBR)任务,所有三个框架都获得了1.0的完整分数。
在OCR相关任务中,Data Interpreter的平均完成率为0.85,比AutoGen和
OpenInterpreter分别高出26.8%和70.0%。
在需要多个步骤并利用多模态工具/能力的任务中,例如网页模仿(WPI)、映像到HTML程
式码生成(I2C)和文字转图像(T2I),Data Interpreter是唯一能够执行所有步骤的框
架。
而在电子邮件自动回复(ER)任务中,AutoGen和OpenInterpreter因为无法登入并取得邮
箱状态,导致完成率较低,而Data Interpreter可以在执行过程中动态调整任务,从而在
完成率上达到0.98。
消融实验
为了进一步探讨相关方法的有效性,研究人员也进行了消融实验。
为评估各模组效能,研究人员在ML-Benchmark上,使用了三种配置进行测试:
1)初始设定:基础ReAct框架,包含简单的任务理解提示词以及支援程式码执行流程;
2)增加了基于分层图结构的动态计划,包括分层规划和每个步骤的动态管理,以便于即
时调整;
3)在2)的基础上增加了工具整合能力。
如表3所示,基于分层图结构的动态计划显著提高了0.48分。它通过准备数据集并实时跟
踪数据变化有助于获得更优性能,特别是完成率方面效果显著。此外,工具的使用带来了
额外9.84%的改进,综合得分达到了0.94分
https://tinyurl.com/2p9ekyd
Data Interpreter还在包括GPT-4-Turbo、GPT-3.5-Turbo以及不同尺寸的LLMs上进行了实
验。
在机器学习的任务中,更大尺寸的LLM,例如Qwen-72B-Chat和Mixtral-8x7B展现出与
GPT-3.5-Turbo相当的表现,而较小的模型则性能下降较多。
如下图所示,结合Yi-34B-Chat、Qwen-14B-Chat和Llama2-13B-Chat,甚至
DeepSeek-7B-Chat,Data Interpreter可以有效处理资料加载及资料分析等步骤。
https://tinyurl.com/y5autmvu
△在ML-BenchMark上使用不同尺寸LLM的评估。 左图:完成率,右图:综合得分
然而,这些模型在执行需要较高编码能力的任务时面临仍受到自身能力限制,通常导致流
程无法完成。 在开放式任务中,Mixtral-8x7B在3项任务上的完成率较高,但在网络搜寻
和爬虫(WSC)任务中表现不佳,难以准确地将完整结果输出到CSV档案。 与机器学习任
务ML-Benchmark类似,规模较小的模型仍因编码能力受限而遇到执行失败问题。
研究人员也针对经验池的大小进行了消融实验。 依储存任务层级的经验数量,分别设定
经验池大小为0,80和200,比较Data Interpreter在不同任务上所需的程式码debug次数
和执行成本的变化,结果如下所示:
https://tinyurl.com/523ey4z2
随着经验池从1增加至200,平均的debug次数从1.48降低到了0.32,执行成本从0.80美元
降低到了0.24美元,显示经验的累计对于从自然语言描述任务到程式码产生能够有明显的
帮助。
论文连结:https://arxiv.org/abs/2402.18679
项目连结:
[1]https://docs.deepwisdom.ai/main/en/DataInterpreter/
[2]https://github.com/geekan/MetaGPT/tree/main/examples/di
[3]https://docs.deepwisdom.ai/main/en/guide/use_cases/agent/interpreter/intro.html
作者: alittleghost (littleghost)   2024-03-16 15:53:00
嗯,我们继续发展工人智慧
作者: mercurycgt68 (发芽的吉它手)   2024-03-16 19:53:00
中国经济数据预测必然持续强劲增长 正确率极高
作者: backpacker18 (It's Fucking RAWWWW)   2024-03-17 02:08:00
不关轮班代工仔的事

Links booklink

Contact Us: admin [ a t ] ucptt.com