这种“智能教练”可帮助LLM在文本和代码之间切换|麻省理工学院新闻

大型语言模型(LLMS)擅长使用文本推理来理解文档的上下文并提供有关其内容的逻辑答案。但是,这些相同的LLM通常也很难正确回答甚至最简单的数学问题。 文本推理通常是考虑计算或算法任务的理论不那么理想的方法。虽然某些LLM可以生成像Python这样的代码来处理符号查询,但模型并不总是知道何时使用代码,或者哪种代码最有效。 LLM似乎可能需要一名教练来引导他们走向最佳技术。 进入 编码,由麻省理工学院研究人员开发的智能助手,指导LLM在代码和文本生成之间切换,直到正确回答查询。 CodeSteer本身是一个较小的LLM,会自动生成一系列提示,以迭代地转向较大的LLM。它在每回合后回顾了模型的当前和以前的答案,并为如何修复或完善该解决方案提供指导,直到它认为答案是正确的。 研究人员发现,使用CodeSteer扩大更大的LLM可以提高其在符号任务上的准确性,例如乘以数字,播放Sudoku和堆叠块的精度,增加了30%以上。它还使较不复杂的模型能够以提高的推理技能胜过更高级的模型。 这项进步可以改善LLM的问题解决功能,用于复杂的任务,仅通过文本推理就很难解决,例如在不确定的环境中为机器人生成路径或在国际供应链中安排运输。 “There is a race to develop better and better models that are capable of doing everything, but we’ve taken a complementary approach. Researchers have spent years developing effective technologies and tools to tackle problems in many domains. We want to enable LLMs to select the right tools […]

麻省理工学院工程师帮助多机器人系统留在安全区|麻省理工学院新闻

无人机表演是越来越受欢迎的大规模灯光显示的形式。这些节目结合了数百至数千个空中机器人,每个机器人都在编程中,以在整个天空中形成复杂的形状和图案一起飞行。当它们按计划进行时,无人机表演可能会很壮观。但是,当一个或多个无人机发生故障,就像最近在佛罗里达,纽约和其他地方发生的那样,它们可能会对地面上的观众造成严重危害。 无人机展示事故突出了维持工程师称为“多基因系统”的安全性的挑战,即多个协调,协作和计算机程序的系统,例如机器人,无人机和自动驾驶汽车。 现在,一组MIT工程师为多种系统开发了一种培训方法,可以保证其在拥挤的环境中安全运行。研究人员发现,一旦该方法用于训练少数代理,这些代理商学到的安全幅度和控件可以自动扩展到任何较大数量的代理,以确保整个系统的安全性。 在现实的示威活动中,团队训练了少量的棕榈大小的无人机,以安全地执行不同的目标,从同时在中途切换位置到降落在地面上的指定移动车辆上。在模拟中,研究人员表明,在几个无人机上训练的相同程序可以被复制并扩展到数千架无人机,从而使大型代理系统可以安全地完成相同的任务。 麻省理工学院航空航天和宇航员副教授Chuchu粉丝说:“对于任何需要一组代理商的应用程序,例如仓库机器人,搜索无人机和自动驾驶汽车,这都是一个标准。” “这提供了盾牌或安全过滤器,说每个代理都可以继续执行任务,我们将告诉您如何安全。” 范和她的同事在一项研究中报告了他们的新方法 本月出现在日记中 IEEE关于机器人技术的交易。 这项研究的合着者是麻省理工学院的研究生Songyuan Zhang和Oswin,以及前MIT Postdoc Kunal Garg,他现在是亚利桑那州立大学的助理教授。 购物中心 当工程师在任何多种系统中设计安全性时,他们通常都必须考虑与系统中其他每个代理相对于每个代理的潜在路径。这对侧相路径计划是一个耗时且计算昂贵的过程。即使那样,也不能保证安全。 这项研究的主要作者张说:“在一个无人机节目中,每个无人机都会有一个特定的轨迹 – 一组航路点和一系列时间 – 然后他们基本上闭上眼睛并遵循计划。” “由于他们只知道自己必须在哪里,在什么时候,如果发生意外的事情,他们不知道如何适应。” MIT团队寻求开发一种方法来训练少数代理商以安全地操纵,以有效地扩展到系统中的任何数量的代理。而且,该方法不是为个别代理计划特定的途径,而是能够使代理能够不断映射其安全边缘或可能不安全的边界。然后,代理可以采取任何数量的途径来完成其任务,只要它留在其安全余量内。 从某种意义上说,该团队说该方法类似于人类如何凭直觉在周围环境中度过。 “说你在一个非常拥挤的购物中心,”因此解释说。 “除了在您附近的附近的人们(例如周围的5米)之外,您不在乎任何人,而不是在安全地走动,而不是撞到任何人。我们的工作采用了类似的本地方法。” 安全障碍 在他们的新研究中,该团队介绍了他们的方法GCBF+,该方法代表“图形控制屏障功能”。屏障函数是用于计算一种安全性屏障的机器人技术中的数学术语,或者超出了代理具有不安全可能性的边界。对于任何给定的代理,该安全区域都可以改变时刻,因为代理在系统内部移动的其他代理中移动。 当设计人员计算多种系统中任何一种代理的屏障功能时,他们通常必须考虑到潜在的路径和与系统中其他代理的相互作用。取而代之的是,麻省理工学院团队的方法仅计算出少数代理的安全区域,以足够准确的方式代表系统中更多代理的动态。 So说:“然后,我们可以为每个代理商复制此障碍功能,然后突然间,我们有一个适合系统中任何数量代理的安全区域图。” 为了计算代理的屏障功能,该团队的方法首先考虑了代理的“传感半径”,或者根据其传感器功能,代理可以观察到多少周围环境。就像在购物中心的类比中一样,研究人员认为,代理人只关心在其传感半径内的代理,这是在保持安全并避免与这些代理发生冲突的方面。 然后,使用捕获代理商特定机械功能和限制的计算机模型,团队模拟了“控制器”,或一组指令,以方式如何转移代理和少数类似代理。然后,他们对沿着某些轨迹移动的多个代理进行模拟,并记录它们是以及如何碰撞或以其他方式相互作用。 张说:“一旦有了这些轨迹,我们就可以计算一些我们想最大程度地减少当前控制器中有多少违反安全性的法律。” “然后,我们更新控制器以使其更安全。” 这样,可以将控制器编程到实际代理中,这将使他们能够根据他们可以在周围的任何其他代理中不断绘制安全区,然后在该安全区内移动以完成任务。 “我们的控制器是反应性的,”范说。 “我们没有事先准备道路。我们的控制器不断收集有关代理商去向的信息,其速度是多少,其他无人机的进展速度。它正在使用所有这些信息来制定计划,并且每次都在重新播放。因此,如果情况发生变化,它总是能够适应安全的。” 该团队在八个疯狂的系统中展示了GCBF+ – 轻巧的,棕榈大小的四极管无人机,他们的任务是在空中飞行和切换位置。如果无人机通过采取最直径的道路来做到这一点,那么它们一定会碰撞。但是,在使用团队的方法进行训练之后,无人机能够进行实时调整,以相互操纵,保持各自的安全区域,以成功地转换位置。 团队以类似的方式负责无人机飞行,然后降落在特定的海龟机器人身上 – 带有贝壳式上衣的车轮机器人。海龟机器人不断地绕着一个大圆圈,而疯狂的泡沫能够避免在降落时相互碰撞。 范说:“使用我们的框架,我们只需要给无人机而不是整个无冲突的轨迹,而无人机可以弄清楚如何在没有碰撞本身的情况下到达目的地。”到任何多种系统以确保其安全性,包括无人机避免碰撞系统,仓库机器人,自动驾驶车辆和无人机输送系统。 这项工作得到了美国国家科学基金会,麻省理工学院林肯实验室的部分支持,该实验室在特技飞行制度(SAFR)计划和新加坡国防科学技术机构的安全下得到了支持。 1738330130 #麻省理工学院工程师帮助多机器人系统留在安全区麻省理工学院新闻 2025-01-31 05:00:00