声明:本文来自于微信公众号 新智元(ID:AI_era),作者:新智元,授权站长之家转载发布。
(资料图)
人类具有创造和利用工具的能力,使得我们可以突破身体的限制,探索更广阔的世界。
人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非常受限,而最近提出的工具学习(tool learning),将特定领域的专用工具与大规模基础模型相结合,可以实现更高的效率、性能。
不过目前工具学习的相关研究还不够深入,也缺乏相关的开源数据和代码。
最近,清华大学自然语言处理实验室等支持的开源社区OpenBMB (Open Lab for Big Model Base)发布了ToolBench项目,可以帮助开发者构建开源、大规模、高质量的指令调优数据,促进构建具有通用工具使用能力的大型语言模型。
仓库链接:https://github.com/OpenBMB/ToolBench
ToolBench仓库中提供了相关数据集、训练和评估脚本,以及在ToolBench上微调的功能模型ToolLLaMA,具体特点为:
1. 支持单工具和多工具方案
其中单工具设置遵循LangChain提示风格,多工具设置遵循AutoGPT的提示风格。
2. 模型回复不仅包括最终答案,还包含模型的思维链过程、工具执行和工具执行结果
3. 支持真实世界级别的复杂性,支持多步工具调用
4. 丰富的API,可用于现实世界中的场景,如天气信息、搜索、股票更新和PowerPoint自动化
5. 所有的数据都是由OpenAI API自动生成并由开发团队进行过滤,数据的创建过程很容易扩展
不过需要注意的是,目前发布的数据还不是最终版本,研究人员仍然在对数据进行后处理来提高数据质量,并增加真实世界工具的覆盖范围。
ToolBench
ToolBench的总体思路是基于BMTools,在有监督数据中训练大型语言模型。
仓库中包含31.2万次真实API调用得到的9800条数据,涵盖单工具场景和多工具场景,下面是单工具的统计信息。
其中每行数据都是一个json dict,包含数据创建的提示模板、工具使用的人工指令(查询)、中间思维/工具执行循环和最终答案。
ToolDescrition:BMToolsTool_name:translationToolaction:get_translationaction_input:{"text":targettexts,"tgt_lang":targetlanguage}
Generated Data:{"prompt": "Answer the following questions as best you can. Specifically, you have access to the following APIs:\n\nget_translation: . Your input should be a json (args json schema): {{\"text\" : string, \"tgt_lang\" : string, }} The Action to trigger this API should be get_translation and the input parameters should be a json dict string. Pay attention to the type of parameters.\n\nUse the following format:\n\nQuestion: the input question you must answer\nThought: you should always think about what to do\nAction: the action to take, should be one of [get_translation]\nAction Input: the input to the action\nObservation: the result of the action\n... (this Thought/Action/Action Input/Observation can repeat N times, max7times)\nThought: I now know the final answer\nFinal Answer: the final answer to the original input question\n\nBegin! Remember: (1) Follow the format, i.e,\nThought:\nAction:\nAction Input:\nObservation:\nFinal Answer:\n (2) Provide as much as useful information in your Final Answer. (3) Do not make up anything, and if your Observation has no link, DO NOT hallucihate one. (4) If you have enough information and want to stop the process, please use \nThought: I have got enough information\nFinal Answer: **your response. \n The Action: MUST be one of the following:get_translation\nQuestion: {input}\n Agent scratchpad (history actions):\n {agent_scratchpad}","query": "My intention is to convert the data provided in ما هي الأقسام الثلاثة للقوات المسلحة؟ into Arabic(ara).\n","chains": [{"thought": "I need to use the get_translation API to convert the text into Arabic.","action": "get_translation","action_input": "{\"text\": \"What are the three branches of the military?\", \"tgt_lang\": \"ara\"}","observation": "\"ما هي الفروع الثلاثة للجيش ؟\""}],"answer": "The translation of \"What are the three branches of the military?\" into Arabic is \"ما هي الفروع الثلاثة للجيش ؟\"."}
模型实验
机器评估:研究人员对每个工具随机抽取100个链步(chain steps)来构建机器评估测试平台,平均27个最终步骤和73个中间工具调用步骤,其中最终步骤的评估使用Rouge-L指标,中间步骤的评估使用ExactMatch指标进行评估。
人工评估:在天气、地图、股票、翻译、化学和WolframAlpha工具中随机抽取10个query,然后评估工具调用过程的通过率、最终答案以及和ChatGPT最终答案的比较。
ChatGPT评估:通过ChatGPT对LLaMA和ChatGPT的答案和工具使用链进行自动评估。
评估结果如下(分数越高越好),可以看到ToolLLaMA在不同场景下与ChatGPT的性能相同或更好。
工具学习
在清华大学、人民大学、北京邮电大学等个国内外知名高校和大学联合发布的一篇论文中,对工具学习进行了系统的研究,介绍了工具学习的背景,包括认知起源、基础模型的范式转变,以及工具和模型的互补作用。
论文链接:https://arxiv.org/pdf/2304.08354.pdf
文中还回顾了现有的工具学习研究,包括工具增强型和工具导向型学习,并制定了一个通用的工具学习框架:从理解用户指令开始,模型应该学会把一个复杂的任务分解成几个子任务,通过推理动态地调整计划,并通过选择合适的工具有效地征服每个子任务。
文中还讨论了如何训练模型以提高工具使用能力并促进工具学习的普及。
考虑到之前的工作中缺乏系统的工具学习评估,研究人员用17种有代表性的工具进行了实验,并展示了当前基础模型在熟练利用工具方面的潜力。
论文最后讨论了几个需要进一步研究的工具学习的开放性问题,例如确保安全和可信赖的工具使用、用基础模型实现工具创建,以及解决个性化的难题。
参考资料:
https://github.com/OpenBMB/ToolBench
标签:
上一篇 : 世界速递!刑事悔过书(集锦5篇)
下一篇 : 最后一页
最新推荐
人工智能基础模型也类似,如果仅靠训练阶段得到的权重,使用场景就会非
刑事悔过书(集锦5篇)刑事悔过书1xxx年xx月xx日xx时许,本人xxx和xx与受
欧洲央行行长拉加德表示,欧元区通胀压力仍然很大,将进一步提高借贷成
1、将U盘插上电脑USB插口,然后打开计算机。2、2、找到可移动磁盘,在
聚焦棚改|“房票”政策助棚改户圆安居梦,房票,征迁,拆迁户,棚改户,棚户
1、成本费用利润率是企业一定期间的利润总额与成本、费用总额的比率。2
日前八步区远东财富中心商圈的某家餐饮店因未在醒目位置张贴或摆放反食
1、凯育现在也有蛮多留学这块的学生,我朋友就是在里面学,暑假就在上
想必现在有很多小伙伴对于烽火姐妹中武田的扮演者方面的知识都比较想要
你刚来深圳的时候,对这里印象最深的是什么?科创之都、设计之都、先行
1、两者最明显的区别就是针对的建筑类型不同,主要是在建筑高度上以24
鹰瞳科技-B(02251)午盘上涨16 32%,报11 12港元,成交额225 972万港
目前江浙终端工厂原料备货尚可,但随着订单氛围走弱,后期终端负荷或有
近日,由商务部主办,农业农村部管理干部学院承办的非洲法语国家个体农
美国芝加哥一起枪击案件现场(资料图)海外网6月5日电据美国广播公司芝
“政府为我们补贴了73万元的资金,用于实木家装喷漆生产线挥发性有机废
网贷延期对征信有影响吗?在贷款还没有逾期的时候,去申请贷款延期,是
企查查APP显示,近日,江苏心电互动汽车销售服务有限公司发生工商变更
“奇瑞不是一个汽车厂、汽车公司,我们是一个发动机公司,我们是一个动
1、首先要梳理头发。2、要想头发长的快一点,第一步就要选择适合的梳子
这是6月4日拍摄的位于内蒙古巴彦淖尔市乌拉特前旗的乌梁素海(无人机照
据@汕头融媒集团消息:因粤东城际铁路项目建设需要,按市、区两级政府
6月4日,国网聊城供电公司在对涉及高考考点供电的电力线路和设备进行特
【地铁设计:将适时推动开展“二次混改”等再融资】地铁设计近日在机构
以下是*ST红相在北京时间6月5日11:11分盘口异动快照:6月5日,*ST红相
1、1 形态特征 苜蓿一年生或多年生草本,稀灌木,无香草气味。2、羽
格隆汇6月5日丨德国汉莎航空首席执行官CarstenSpohr,目前讨论该公司有
证券时报记者赵梦桥5月30日,国融基金公告,旗下国融融泰灵活配置混合
宜城电厂500千伏送出工程送电鄂西北新添电力“动脉”迎夏峰---湖北日报讯(记者彭一苇、通讯员汪明洋、...
6月3日消息,长城证券指出,A股基本面底部有望逐季改善,计算机、传媒、消费服务、出行等行业利润已明显修
意甲-基耶萨抽射建功尤文图斯1-0乌迪内斯收获联赛第七,乌迪内斯,基耶萨,尤文图斯队,夸德拉多,迪马利亚,博努奇
2023年,我国高校毕业生将达到1158万人,同比增加82万人。招工难、就业难并存的结构性矛盾依然突出。人
1、解禁股票是指限售股过了限售承诺期,可以在二级市场自由买卖的股票。2、相关介绍:解禁只是一个时间窗口
给孩子买东西,家长最关心的就是安全。时值第73个“六一”国际儿童节,儿童用品质量安全再次成为全社会...
1、一是选材要老,二是容器要大,三是营养要适当,四是人工要管到位。2、生根快需要激素刺激吧。本文就讲到
1、《最美的天使女孩》是在连城读书网连载的一部作品。2、作者是小小小蚊子。文章到此就分享结束,希望对大
根据Wind数据统计显示,下周(6月5日-6月9日)共有76家公司限售股陆续解禁,合计解禁113 66亿股,按6月2日
大葱炒肉片百吃不厌的家常菜。此菜,好吃的要点是大葱的量要大,吃的就是大葱的香气,和肉片嫩滑的技巧,掌
直播吧6月4日讯《法国足球》官方盘点了第一届科帕奖的排名,姆巴佩排名第一,普利西奇排名第二。科帕奖是一
南通支云安排4外援首发登场,分别是:卡斯蒂略、罗马里奥、莫雷拉托、布雷桑;老将刘伟依然担任场上队长,
金时科技:关于召开公司2023年第一次临时股东大会的通知
夏夜傍晚,微风拂面,温柔静谧。正当你独享着这份惬意,准备美美地睡一觉时,一只不知好歹的蚊子“嗡嗡...
央视网消息:在江苏,眼下,江苏江阴的夏收夏种工作正在进行当中,田间地头一片繁忙景象。当地投用配备北斗
央视网消息:换个视角去看记者在距离东风着陆场1600多公里的新疆和田活动测控站,记录的神舟十五号返回地球
七宝琉璃宗有一个不成文的规定,那就是宗门直系子弟的伴侣必须是一名战斗系的魂师,从而拥有保护七宝琉璃宗
大雄这点略好,就算没有哆啦A梦的话,至少大雄跟静香也算是青梅竹马的小伙伴,两个人还是经常有机会在一起
兵贵神速!继5月12日启动上市工作后,首只基于科创50指数的场内期权品种——科创50ETF期权合约,正式定...
1、给他们频道增加人气2、给观众加贡献,升级3、吸引不明真相的人围观4、主播会买粉的。2、而水军也是有收入
App6月3日消息,乘联会秘书长崔东树发文指出,2023年世界新能源汽车走势较稳,2023年1-4月的广义新能源汽车
成都抗疫的外籍志愿者:愿为城市“康复”贡献力量
世界速看:北京动物园回应“丫丫”抵京展。(北京动物园将护送丫丫回国)
【视频】优化证券执法司法机制 保护投资者合法权益 世界今热点
【全球速看料】麦克奥迪董秘回复:您可以通过投资者热线,互动易,指定邮箱和我们沟通,如有其他沟通渠道,公司会及时公示
《街霸6》全角色胜利造型合集 KO后就要狠狠上脸!|世界通讯
《股东来了》浙江片区精彩进行时丨走进长兴琪康餐饮、杭州物产天地中心园区、遂昌艾巴黎烘焙坊、绍兴荣安观江园、嘉兴经开运河社区
6月2日基金净值:国金量化多策略A最新净值1.1916,涨1.06%
金选简报|山石网科上市首亏!现金流持续下滑,业绩颓势背后隐患颇多
奥泰生物(688606.SH)2022年度权益分派:每股转0.48股派10元 6月8日股权登记 每日消息
23/24榨季新疆甜菜种植面积预计为90万亩,同比增加10%左右金十期货6月2日讯,据了解,23/24制糖期新疆甜菜收购价预计高位持稳,到厂价在600元/吨左右_当前快看
【原】一个科学界头疼了很久的问题:为什么电子不会掉进原子核中? 前沿热点
全球首次!海上风电无淡化海水原位直接电解制氢海上中试成功 环球快资讯
天天观速讯丨太保长相伴(精英版)终身寿险保什么?有什么亮点?
世界热推荐:李立群新冠后肺部感染,住高档病房输液,网友担忧其身体状况
传苹果(AAPL.US)储蓄账户取钱困难 高盛:淡定,只为保护账户安全 每日头条
每日信息:成渝经济圈供应链金融1-10号20亿元ABS项目获受理
Copyright © 2015-2022 时代律师网版权所有 备案号: 联系邮箱: 514 676 113@qq.com