您现在所在位置: 首页 > PG电子 > PG电子APP

研究人员揭示代码执行器受限于模型能力指明智能体融入符号计算PG电子技巧

2025-07-06 13:37:29
浏览次数:
返回列表

  PG电子(Pocket Games Soft )全球首屈一指的电子游戏供货商[永久网址:363050.com],首位跨足线下线上电子游戏开发。PG电子,pg娱乐,PG电子试玩平台,pg电子app,pg电子外挂,pg电子接口,pg电子技巧,pg电子下载,欢迎注册体验!

研究人员揭示代码执行器受限于模型能力指明智能体融入符号计算PG电子技巧

  近日,中国科学技术大学本科校友、美国哈佛大学博士生陈勇超和所在团队以 Qwen-3B/7B/14B 为初始模型, 用多步监督微调(SFT,Supervised Fine-tuning)和群体相对策略优化(GRPO,Group Relative Policy Optimization)让模型在 144 个推理和规划的任务上进行训练。训练过程中模型可以自由多次使用代码执行器来帮助推理,这些任务都有符号计算的成分,但是文字推理和符号计算哪个更合适以及如何相互配合其实需要模型自主学会。

  研究团队发现,训练代码执行器(Code Interpreter)受限于模型的能力。比如,很多模型在过度的文字推理训练后,代码生成能力反而会下降。这种能力下降在 Leetcode 这种特定代码基准上很难体现出来,因为下降的能力是在解析具体抽象问题到代码或者符号计算这一步。现实生活中很多问题也是这样,尽管存在符号计算的因素,但是想要抽象成符号计算的问题需要有很多思考。

  任务的多样性则是另一个挑战。训练单个任务的代码执行系统很容易,但是研究团队发现当任务种类繁多情况下,模型就很难学会根据不同任务来决定策略,很多任务对于策略的偏好性甚至是相反的。鉴于此,研究团队发现单纯靠强化学习很难达到很好的效果,这和在数学任务或检索任务上使用强化学习就能完成训练存在不同之处。“所以,SFT 阶段在我们研究团队的任务上还是非常重要的。”陈勇超表示。

  陈勇超认为,未来基于大模型的代理或者具身智能系统在很多任务中都需要融入符号计算,就像很多机器人领域的学者认为“未来的模型不是从视觉语言到动作,而是视觉语言到控制”。可以预见的是,最先应用的是虚拟世界,比如旅行规划、网页任务以及各种科学问题求解。同时,虽然很多任务并不需要符号计算,但是仍需要代码执行,例如任务过程中需要画图来可视化,这些场景也亟需训练模型融入代码执行器。

  据介绍,R1-Code-Interpreter 工作是研究团队整个大课题的一部分:把符号计算与基于大模型的推理规划结合起来(Neuro-Symbolic Foundation Models for Reasoning and Planning)。现在的大模型推理规划基本都是直接基于纯神经网络以及文字推理来进行。但是,有很多任务都是需要基于符号来计算优化的,比如要让大模型帮用户规划旅行路线,整个机票、酒店、时间、地点和交通的选择都是在预算、偏好、行程和价格等因素下的优化与规划问题。再比如,机器人中典型的任务与移动规划。前段时间特别火的“9.9 和 9.11 比大小”还有“strawberry 里面有几个 r”等问题,让大模型生成代码来解决这些问题比直接文字推理要简单容易得多。

  在这个工作之前,研究团队在 ICRA 2024 发表的 AutoTAMP[1] 和在 NAACL 2025 发表的 TravelPlanner[2] 利用其预先设计好的框架和算法把大模型与符号计算的工具相结合, 来做机器人和旅行中的规划问题。这样做能带来很好的效果,但是泛化性会有局限性。比如,面临不同任务需求时,所需要的算法以及框架会不一样,这时若为每个场景设计一个框架会显得十分局限。现在大模型之所以这么火,一大原因就是因为它超强的泛化性。所以,研究团队一直思考如何在让大模型能够在符号计算的同时,又不损失大模型的泛化能力。

  2024 年,陈勇超在微软研究院实习的时候,首先想到的就是以代码为载体,来融合各个算法、控制器和规划器。一方面,因为符号计算就是在人为预先设定的规则语言下调用各种算法,比如编程语言、控制器以及规划搜索方法等。另一方面,当前的大模型在经过训练后,天然具备代码编程的能力。所以研究团队认为,如果大模型能够自然高效运用代码执行器,然后在文字推理和符号计算之间灵活调动,那么在处理各种推理规划任务时会非常高效。同时,因为是否调用代码以及选择什么样的算法都是大模型自主完成,所以对泛化性没有损失。

  明确了这个方向之后,研究团队先测试了一下目前 OpenAI 的 Code-Interpreter,借此发现目前 OpenAI 训练的 GPT-4o+代码执行器有很多问题,比如有些任务很明显使用生成代码来解决会更好,但是其实模型仍然会选择自己用文字推理,然后导致出错。研究团队还发现,即使通过调整提示词引导模型生成代码来解决任务,生成的代码也会经常包含无效的代码,未能充分利用符号计算。最新的推理模型 o1、o3 还有 DeepSeek-R1 也被发现存在这些问题。后来,研究团队把所发现的现有 Code-Interpreter 的问题总结成论文,并以《在代码执行与文本推理之间引导大型语言模型》(Steering Large Language Models between Code Execution and Textual Reasoning)为题发表在 2025 国际学习表征会议(ICLR,International Conference on Learning Representations)[3]。

  而为了解决这些不足,研究团队尝试训练模型来提高自如运用代码执行器的能力。其中涉及到两个方向:一是额外训练一个辅助的模型来指导主模型的生成,好处是辅助模型的尺寸和训练难度都要小很多,而且可以通过用最强的主模型来探测现在能达到的最强能力。二是直接微调单个模型来兼顾纯文字推理以及符号计算的能力,这对基础模型的能力要求比较高。研究团队一开始尝试的是第一种方法,训练出来的 CodeSteer[4] 能够让 GPT-4o 在 8B 模型的指导下,充分利用符号计算来解决很多推理规划问题,甚至在很多任务上比 o1 和 DeepSeek-R1 的表现还好。第二种方法就是研究团队在此次 R1-Code-Interpreter 工作中所探究的。

  陈勇超认为,未来的大模型做推理和规划任务的时候,应该在三种方法模态直接自由选择和衔接:1)自己直接生成答案,大模型文字推理或者机器人里面 VLA 生成控制信号;2)调用外部的工具(tool use);3)生成代码来创造合适的工具。后续,他计划探索一些方法把这三种模式都结合起来。同时,也打算在具体实际的应用任务上达到更好的效果,来验证想法的可行性。

  06月26日,“跨越万里·华岩寺非遗澳大利亚展”在悉尼开幕,可以兑换的棋牌,鸿博体育最新版APP,bwin电竞,赌场车去百老汇

  06月26日,山东大学国际问题研究院成立五周年暨“百年大变局与国际问题研究”学术研讨会开幕,bet足球,betway网站,线上德州平台,万博在哪里玩

  06月26日,江苏特种设备焊接技能高手在扬州同台竞技,178足球直播雨燕,欧宝网址,哪个软件能玩二八杠,新宝网络彩票可靠吗

  06月26日京剧演员蓝天追忆恩师童祥苓:我失去了一位崇拜的偶像怎么找到AG官方网站可以赌电竞的外围ManBetX万博可靠吗澳门威斯人游戏网址

  06月26日多所高校提出使用AI的多个“禁止” 学术论文使用AI边界在哪儿?万博手机版max登录bet平台安全cq9网址澳门体育注册

  06月26日琼州海峡过海车票紧俏 海口新海港增开新能源小车出岛专班澳门新萄京赌场网址万博网页登录页面设置欧冠足彩去哪里买KU游戏……

  06月26日,“五一”餐饮市场火热 外卖成餐饮企业营收上涨重要渠道,宝博棋牌官网下载,皇冠愽彩网,365速发app下载,乐虎国际好玩吗?

  06月26日,回南天该怎么防潮?,大发体育外围官网,棋牌彩金,电子游戏平台大全,凯发注册app在线级地震:受灾地区通讯有序恢复二八杠玩法注册九五至尊线菠菜网澳门登入国际

  06月26日,浙江:“四好农村路”助乡村“因路而富”,沙巴体育直播视讯,188bet金宝搏线路检测,nba哪里可以押注,真人德州手机客户端

  06月26日,三星堆考古发现玉石器作坊区,皇冠体育滚球app下载,银河国际网上娱乐成,凯发娱乐手机登入,大三元app下载

  06月26日,公安部:电子行驶证将于7月1日起在全国60个城市先行试点,皇冠体育网站正规,完美体育的套路有哪些,杏耀官方下载地址,优博官网地址

  06月26日【两会30秒】成都市市长王凤朝:将进一步增强外国朋友旅游体验感雷速体育下载赌场直营亚博快速注册万博官网下载app

  06月26日外媒:日、韩股市暴跌 触发熔断机制爱博官网登录棋牌大网址PG电子游戏在线日湖北咸宁:贺胜鸡汤“香万里” 小镇特色产业兴AG捕鱼王下载官方澳门最大的皇家上线官网网页版登录

  加强文化和自然遗产的整体性系统性保护,孙杨国内赛400自取得17连胜(巴黎奥运)中国女排无缘四强 中国三大球全部出局优博好玩吗?大众彩票平台登陆凯发K8娱乐全球公开贝博app官方

  檀健次出了两百道题,雷军回应小米15涨价幅度3分49秒58 孙杨夺男子400米自由泳冠军金花三张牌下载华体会足球免费单机炸金花英亚体育官方入口

  勇士主场战胜独行侠,家有儿女大电影原班人马全员回归低温蓝色预警!贵州湖南等5省部分地区最低气温较常年偏低7℃以上博狗免费试玩华体育app官方下载足球大赢家比分国际音标真人发音口型

  曹利国摔跤决赛,坡子街派出所民警表情管理失败青海湖北岸:生态环境治理加快实施 物种数量稳中有增鑫百利客服微信华体会注册App沙巴体育官方网站入口威尼斯人官网首页

  LCK季后赛 T1 3:1 KT,感觉相亲对象不如盾构机胡塞武装发射导弹击中一艘美国船只 美军已确认m6网址盛世平台彩票官网在线电玩城真人德州苹果版下载

  OPPO超影像,中美南海撞机事件肇事美机将展出特朗普呼吁立即释放加沙人质,警告责任方将付出代价真人现场视讯棋牌日博体育体育外围爱游戏app平台刺激战场国际版怎么升到有真人

搜索