当前位置: 首页 >  法制聚焦  >   >  正文

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

  • 2023-06-06 09:56:53 来源:​新智元公众号

声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。


(资料图)

人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。

人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(tool learning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。

不过目前工具学习的相关研究还不够深入,也缺乏相关的开源数据和代码。

最近,清华大学自然语言处理实验室等支持的开源社区OpenBMB (Open Lab for Big Model Base)发布了ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大型语言模型。

仓库链接:https://github.com/OpenBMB/ToolBench

ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:

1. 支持单工具和多工具方案

其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。

2. 模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果

3. 支持真实世界级别的复杂性,支持多步工具调用

4. 丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化

5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤,数据的创建过程很容易扩展

不过需要注意的是,目前发布的数据还不是最终版本,研究人员仍然在对数据进行后处理来提高数据质量,并增加真实世界工具的覆盖范围。

ToolBench

ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。

仓库中包含31.2万次真实API调用得到的9800条数据,涵盖单工具场景和多工具场景,下面是单工具的统计信息。

其中每行数据都是一个json dict,包含数据创建的提示模板、工具使用的人工指令(查询)、中间思维/工具执行循环和最终答案。

ToolDescrition:BMToolsTool_name:translationToolaction:get_translationaction_input:{"text":targettexts,"tgt_lang":targetlanguage}

Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max7times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}

模型实验

机器评估:研究人员对每个工具随机抽取100个链步(chain steps)来构建机器评估测试平台,平均27个最终步骤和73个中间工具调用步骤,其中最终步骤的评估使用Rouge-L指标,中间步骤的评估使用ExactMatch指标进行评估。

人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query,然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。

ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。

评估结果如下(分数越高越好),可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。

工具学习

在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中,对工具学习进行了系统的研究,介绍了工具学习的背景,包括认知起源、基础模型的范式转变,以及工具和模型的互补作用。

论文链接:https://arxiv.org/pdf/2304.08354.pdf

文中还回顾了现有的工具学习研究,包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。

文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。

考虑到之前的工作中缺乏系统的工具学习评估,研究人员用17种有代表性的工具进行了实验,并展示了当前基础模型在熟练利用工具方面的潜力。

论文最后讨论了几个需要进一步研究的工具学习的开放性问题,例如确保安全和可信赖的工具使用、用基础模型实现工具创建,以及解决个性化的难题。

参考资料:

https://github.com/OpenBMB/ToolBench

标签:

最新推荐

清华等开源「工具学习基准」ToolBench,微调模型ToolLLaMA性能超越ChatGPT_焦点滚动

人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非

世界速递!刑事悔过书(集锦5篇)

刑事悔过书(集锦5篇)刑事悔过书1xxx年xx月xx日xx时许,本人xxx和xx与受

拉加德:欧元区通胀压力仍很大 欧洲央行将进一步加息|全球观焦点

欧洲央行行长拉加德表示,欧元区通胀压力仍然很大,将进一步提高借贷成

u盘exfat转fat32_u盘exfat转fat32工具-世界快资讯

1、将U盘插上电脑USB插口,然后打开计算机。2、2、找到可移动磁盘,在

聚焦棚改 | “房票”政策助棚改户圆安居梦 世界聚焦

聚焦棚改|“房票”政策助棚改户圆安居梦,房票,征迁,拆迁户,棚改户,棚户

成本费用利润率降低的原因_成本费用利润率 时快讯

1、成本费用利润率是企业一定期间的利润总额与成本、费用总额的比率。2

远东商圈某餐饮店被罚……“制止餐饮浪费”贺州是认真的

日前八步区远东财富中心商圈的某家餐饮店因未在醒目位置张贴或摆放反食

长沙法拍_长沙法语培训

1、凯育现在也有蛮多留学这块的学生,我朋友就是在里面学,暑假就在上

全球快资讯:电视剧烽火四姐妹演员_烽火姐妹中武田的扮演者

想必现在有很多小伙伴对于烽火姐妹中武田的扮演者方面的知识都比较想要

环球聚焦:世界环境日迎环保大考!这家深圳科技企业交出“高分”成绩单

你刚来深圳的时候,对这里印象最深的是什么?科创之都、设计之都、先行

高规编号是多少_高规全称 天天快讯

1、两者最明显的区别就是针对的建筑类型不同,主要是在建筑高度上以24

最新资讯:鹰瞳科技-B午盘涨超16% 中金给予目标价17.40港元

鹰瞳科技-B(02251)午盘上涨16 32%,报11 12港元,成交额225 972万港

世界热讯:中辉期货聚酯日报20230605:TA震荡运行

目前江浙终端工厂原料备货尚可,但随着订单氛围走弱,后期终端负荷或有

援外培训架起中非友谊的桥梁 非洲法语国家个体农户能力建设研修班纪实 天天视讯

近日,由商务部主办,农业农村部管理干部学院承办的非洲法语国家个体农

美国芝加哥周末枪击案频发 至少50人中枪10人死亡 环球即时看

美国芝加哥一起枪击案件现场(资料图)海外网6月5日电据美国广播公司芝

全球观热点:泰山区:加大生态环境治理投入 培育更多环保优秀企业

“政府为我们补贴了73万元的资金,用于实木家装喷漆生产线挥发性有机废

网贷延期对征信有影响吗?网贷办理延期还款是真的吗?

网贷延期对征信有影响吗?在贷款还没有逾期的时候,去申请贷款延期,是

【环球报资讯】理想汽车旗下心电互动销售服务公司增资至38亿

企查查APP显示,近日,江苏心电互动汽车销售服务有限公司发生工商变更

【当前热闻】鲲鹏超性能电混C-DM下线 奇瑞三大品牌全面混动化

“奇瑞不是一个汽车厂、汽车公司,我们是一个发动机公司,我们是一个动

太短了怎么变长_头发怎么长的快

1、首先要梳理头发。2、要想头发长的快一点,第一步就要选择适合的梳子

夏日乌梁素海

这是6月4日拍摄的位于内蒙古巴彦淖尔市乌拉特前旗的乌梁素海(无人机照

焦点快看:汕头四中,整体搬迁!

据@汕头融媒集团消息:因粤东城际铁路项目建设需要,按市、区两级政府

世界通讯!国网聊城供电公司带电消除隐患保障高考用电

6月4日,国网聊城供电公司在对涉及高考考点供电的电力线路和设备进行特

地铁设计:将适时推动开展“二次混改”等再融资_环球速讯

【地铁设计:将适时推动开展“二次混改”等再融资】地铁设计近日在机构

*ST红相6月5日盘中涨幅达5%

以下是*ST红相在北京时间6月5日11:11分盘口异动快照:6月5日,*ST红相

苜蓿怎么读_苜蓿草图片

1、1 形态特征  苜蓿一年生或多年生草本,稀灌木,无香草气味。2、羽

入股葡萄牙同业 汉莎航空称言之尚早 焦点速看

格隆汇6月5日丨德国汉莎航空首席执行官CarstenSpohr,目前讨论该公司有

【速看料】降费求生存 迷你基金“保壳”花样频出

证券时报记者赵梦桥5月30日,国融基金公告,旗下国融融泰灵活配置混合

宜城电厂500千伏送出工程送电 鄂西北新添电力“动脉”迎夏峰

宜城电厂500千伏送出工程送电鄂西北新添电力“动脉”迎夏峰---湖北日报讯(记者彭一苇、通讯员汪明洋、...

长城证券:A股基本面底部有望逐季改善|当前速递

6月3日消息,长城证券指出,A股基本面底部有望逐季改善,计算机、传媒、消费服务、出行等行业利润已明显修

当前焦点!意甲-基耶萨抽射建功 尤文图斯1-0乌迪内斯收获联赛第七

意甲-基耶萨抽射建功尤文图斯1-0乌迪内斯收获联赛第七,乌迪内斯,基耶萨,尤文图斯队,夸德拉多,迪马利亚,博努奇

【天天快播报】各地就业政策频出 “花式”引才聚才

2023年,我国高校毕业生将达到1158万人,同比增加82万人。招工难、就业难并存的结构性矛盾依然突出。人

解禁股票当天一般涨还是跌_解禁股票是什么意思

1、解禁股票是指限售股过了限售承诺期,可以在二级市场自由买卖的股票。2、相关介绍:解禁只是一个时间窗口

每日短讯:严把儿童用品质量关,夯实质量安全保障线

给孩子买东西,家长最关心的就是安全。时值第73个“六一”国际儿童节,儿童用品质量安全再次成为全社会...

富贵竹水养生根要多久_富贵竹水养生根方法 今日热闻

1、一是选材要老,二是容器要大,三是营养要适当,四是人工要管到位。2、生根快需要激素刺激吧。本文就讲到

最资讯丨最美的天使女孩_对于最美的天使女孩简单介绍

1、《最美的天使女孩》是在连城读书网连载的一部作品。2、作者是小小小蚊子。文章到此就分享结束,希望对大

芯片设备巨头,178亿解禁!_环球聚看点

根据Wind数据统计显示,下周(6月5日-6月9日)共有76家公司限售股陆续解禁,合计解禁113 66亿股,按6月2日

环球精选!葱炒什么好吃?

大葱炒肉片百吃不厌的家常菜。此菜,好吃的要点是大葱的量要大,吃的就是大葱的香气,和肉片嫩滑的技巧,掌

法国足球盘点首届科帕奖排名:姆巴佩第一,普利西奇第二

直播吧6月4日讯《法国足球》官方盘点了第一届科帕奖的排名,姆巴佩排名第一,普利西奇排名第二。科帕奖是一

福布斯首次首发,4外援比拼!青岛海牛对南通支云首发出炉,王哲执法 动态焦点

南通支云安排4外援首发登场,分别是:卡斯蒂略、罗马里奥、莫雷拉托、布雷桑;老将刘伟依然担任场上队长,

微资讯!金时科技: 关于召开公司2023年第一次临时股东大会的通知

金时科技:关于召开公司2023年第一次临时股东大会的通知

世界焦点!1个最简单的方法,让你夏天再也不怕蚊子咬了!

夏夜傍晚,微风拂面,温柔静谧。正当你独享着这份惬意,准备美美地睡一觉时,一只不知好歹的蚊子“嗡嗡...

环球新消息丨北斗导航系统无人驾驶插秧机、收割机提升夏收夏种效率

央视网消息:在江苏,眼下,江苏江阴的夏收夏种工作正在进行当中,田间地头一片繁忙景象。当地投用配备北斗

中国星辰 | 神十五“像流星一样回到祖国怀抱”

央视网消息:换个视角去看记者在距离东风着陆场1600多公里的新疆和田活动测控站,记录的神舟十五号返回地球

斗罗大陆:看到宁荣荣的第八魂技,宁风致:你来,宗主你当吧-世界今头条

七宝琉璃宗有一个不成文的规定,那就是宗门直系子弟的伴侣必须是一名战斗系的魂师,从而拥有保护七宝琉璃宗

精灵梦叶罗丽与哆啦A梦五对相似人物,静香类似富二代陈思思?-世界观察

大雄这点略好,就算没有哆啦A梦的话,至少大雄跟静香也算是青梅竹马的小伙伴,两个人还是经常有机会在一起

神速!这类品种再迎新成员 两大公募巨头助阵 对应ETF规模超870亿元

兵贵神速!继5月12日启动上市工作后,首只基于科创50指数的场内期权品种——科创50ETF期权合约,正式定...

听说主播能赚钱的是谁_听说主播能赚钱|今头条

1、给他们频道增加人气2、给观众加贡献,升级3、吸引不明真相的人围观4、主播会买粉的。2、而水军也是有收入

世界快看点丨崔东树:1-4月中国占世界新能源车份额60%

App6月3日消息,乘联会秘书长崔东树发文指出,2023年世界新能源汽车走势较稳,2023年1-4月的广义新能源汽车

X 广告
X 广告

精彩放送

喜讯|新人新风采

每日消息![华晨宇水仙文]《我真没想穿书啊》第四章

精彩看点:丫鬟家法挨打鞭子_丫鬟家法挨打的故事

罚没利得计入什么科目_罚没利得包括哪些

itf14条码生成(itf14条码在线生成器)-世界百事通

世界速看:北京动物园回应“丫丫”抵京展。(北京动物园将护送丫丫回国)

烈火中这个身影太震撼!南京休假辅警徒手翻墙奋勇灭火_快资讯

坐飞机行李怎么办理托运_坐飞机行李怎么办_讯息

全球热门:儋州高考生 注意!云上踩点看考场操作方法来了

【视频】优化证券执法司法机制 保护投资者合法权益 世界今热点

回南天是什么意思网络用语(回南天是什么意思)_今头条

“露营经济”在菏泽鲁西新区悄然兴起 天天微头条

【全球速看料】麦克奥迪董秘回复:您可以通过投资者热线,互动易,指定邮箱和我们沟通,如有其他沟通渠道,公司会及时公示

江苏牵手中国商飞,航空航天产业蓄势待飞_天天微速讯

美国总统拜登:他将于周六签署债务上限法案 环球快讯

播报:《星球大战:旧共和国武士II》恢复内容DLC取消发布

他们常年一脚湿地一脚沼泽 只为守护“鸟中大熊猫”

全球热点评!竹笋炒肉的做法超小厨?

秘鲁发生5.3级地震 天天热文

牛黄清心丸的功效与作用价格_牛黄清心丸的功效 世界今日报

热感冒和冷感冒的区别吃什么药_热感冒和冷感冒的区别

焦点短讯!RCEP进入全面实施新阶段

《街霸6》全角色胜利造型合集 KO后就要狠狠上脸!|世界通讯

难民团是什么意思_难民代表团什么意思

零陵机场_零陵机场

热议:汝阳县:托幼服务再聚力 童心向党庆“六一”

《股东来了》浙江片区精彩进行时丨走进长兴琪康餐饮、杭州物产天地中心园区、遂昌艾巴黎烘焙坊、绍兴荣安观江园、嘉兴经开运河社区

中行纸黄金交易时间是什么时候?纸黄金交易规定及特点

6月2日基金净值:国金量化多策略A最新净值1.1916,涨1.06%

金选简报|山石网科上市首亏!现金流持续下滑,业绩颓势背后隐患颇多

2023泰晤士高等教育大学影响力:中国院校排名_天天播报

奥泰生物(688606.SH)2022年度权益分派:每股转0.48股派10元 6月8日股权登记 每日消息

23/24榨季新疆甜菜种植面积预计为90万亩,同比增加10%左右金十期货6月2日讯,据了解,23/24制糖期新疆甜菜收购价预计高位持稳,到厂价在600元/吨左右_当前快看

微信怎么完善个人信息(如何完善微信个人信息)_环球最资讯

每日快讯!红华农场公司计划打造1530亩青柚基地

1小时等于多少秒_1小时3分59秒24如何写

折叠屏的价格,被联想moto打下来了 天天聚看点

【原】一个科学界头疼了很久的问题:为什么电子不会掉进原子核中? 前沿热点

全球首次!海上风电无淡化海水原位直接电解制氢海上中试成功 环球快资讯

天天观速讯丨太保长相伴(精英版)终身寿险保什么?有什么亮点?

6月8日容汇锂业、壹连科技将接受创业板审核|快讯

世界热推荐:李立群新冠后肺部感染,住高档病房输液,网友担忧其身体状况

市建设局开展市区保障性租赁住房建设筹集质量排查工作_聚看点

【独家】书法导报网络版_书法导报

传苹果(AAPL.US)储蓄账户取钱困难 高盛:淡定,只为保护账户安全 每日头条

每日信息:成渝经济圈供应链金融1-10号20亿元ABS项目获受理

人民银行今日开展20亿元逆回购操作 公开市场实现净回笼30亿元_世界热闻

今年全国快递业务量已达500亿件-即时焦点

每日热点:王欣瑜晋级法网32强

全球时讯:微信推出视频号直播推广广告6·18大促助力计划

Copyright ©  2015-2022 时代律师网版权所有  备案号:   联系邮箱: 514 676 113@qq.com