随着AI需求的增长,拟人化开放印度办公室

学分:CC0公共领域 美国初创公司Anthropic周三表示,随着全球生物AI参与者寻求进入世界上人口最多的国家,它计划明年在印度开设一个办公室。 在印度,对AI工具和解决方案的需求激增(到年底到年底都拥有超过9亿个互联网用户),这是由于企业和个人的收养不断增长。 拟人化表示,印度在聊天机器人克劳德(Claude)的《消费者使用》中排名“全球第二位”,并补充说,其计划中的班加罗尔(Tech Hub Bengaluru)计划的办公室将支持该国“迅速发展的AI生态系统”。 本周在印度的首席执行官达里奥·阿莫迪(Dario Amodei)本周在一份声明中说:“由于其技术人才的规模以及印度政府的承诺确保人工智能的利益到达社会的所有领域,而不仅仅是集中口袋,因此印度之所以引人注目。” Anthropic的举动是在其他希望向印度用户提供的AI高级公司的公告之后。 Openai表示将在今年晚些时候开设印度办事处,其首席山姆·奥特曼(Sam Altman)指出,在过去一年中,该国的Chatgpt使用率已增长了四倍。 8月,该公司每月启动了399卢比(4.50美元)的订阅计划,目标是针对学生和年轻开发人员。 Chatgpt负责人尼克·特利(Nick Turley)在X上说,使该服务“更实惠”是用户的“关键询问”。 AI公司的困惑还宣布了7月与印度电信巨头Airtel建立主要合作伙伴关系,为该公司的3.6亿客户提供了免费的为期一年的困惑Pro订阅。 人类的价值为1830亿美元,而据报道,Openai的估值在私人股票出售至5000亿美元后飙升,这将使它成为世界上最有价值的创业公司。 ©2025 >< 引用:随着AI需求的增长(2025年10月8日),拟人化开放印度办公室(10月8日)于2025年10月8日从 该文档具有版权。除了出于私人研究或研究目的的任何公平交易之外,未经书面许可,不得复制任何部分。内容仅用于信息目的。 1759918877 #随着AI需求的增长拟人化开放印度办公室 2025-10-08 09:50:00

亚马逊正在大修其设备,以在AI时代使用苹果

学分:Unplash/CC0公共领域 当Amazon.com Inc.在2023年招募长期Microsoft Corp.产品席Panos Panay来运营其设备部门时,他的新同事认为这家电子商务巨头正准备采用其消费者小工具阵容的高档。 Panay在与Alexa,Echo和Fire TV品牌的成千上万的工程师的全方手会议上撤回了这个想法。但是,直到本周,高管在纽约举行的一项活动中推出了一套新产品,他对业务的愿景才更加明确。消息:Panay旨在建造人们希望在每个价格标签中炫耀并使用的设备。他在接受采访时说:“这个想法在每种产品中都投入了很多细节。” Panay说,尽管大多数新设备,包括更新的智能扬声器,电子书阅读器,家庭安全工具,电视配件和其他产品,但确实具有更高的价格,但该公司的价格更便宜的产品同样重要。 他说:“设计成本的超级大国是如此罕见的才能。” “当您只是锚定上这一点时,现在您正在制造出色的产品,您可以为所有人服务 – 这就是我们可以对世界产生影响的方式。” Microsoft的前顶级设计师Ralf Groene于今年早些时候退休,成为亚马逊的设计负责人,这是令人感动的。 “材料中有很多复杂的知识,但是我们不希望您想,’哦,它是如此精致。’它需要融入其中。”他将其比较,以便在跑步时不要注意到鞋子。或者,当您弹吉他并“融入音乐”时。 当Panay对亚马逊外观光滑的新Echo扬声器和Kindle电子阅读器感到兴奋时,他最自豪地谈论了一个更新的40美元的4K Fire TV Stick,这是一个毫无魅力的外围设备,使人们可以在电视上进行编程。他说,该产品具有新的操作系统,其速度和性能“在最便宜的4K设备上”。 Panay说:“在我心中,这是一个很棒的产品,因为很多人能够负担得起并获得令人难以置信的体验。” 尽管如此,制造更多优质硬件(Panay)称为“签名”线,以产生更高的利润率,La Apple,也是目标的主要部分。亚马逊的硬件部门长期以来一直被视为损失的领导者,这是来自Alexa语音助理进行的订阅和购买的真实资金。 Panay质疑该观点。他说,虽然整体部门继续亏损,但一些产品线却是有利可图的,而另一些产品线则朝这个方向前进。 Panay还负责监督Amazon在Alexa和设备之外的努力,包括通过Kuiper Project Kuiper和使用Zoox的自动驾驶汽车进入卫星互联网。近年来,由于首席执行官安迪·贾西(Andy Jassy)寻求削减成本并改革有时作为边界研究实验室的部门,因此该集团的利润推动力一直是该集团的优先事项。 Panay说:“我的信念是,我们的工作是使设备成为亚马逊的下一个大型业务。”他说,要实现这一目标,并继续建立组织,需要将杠杆拉动,以使业务更加成功。 改建的设备可能会有所帮助。除了消防电视棒外,大多数新的亚马逊品牌硬件的价格都更高。例如,最新的Echo Show 8比当前模型高出80美元。新的颜色Kindle Scribe是最昂贵的亚马逊电子阅读器,大约为200美元。 Panay说,随着这些价格较高的价格,您也可以获得更好的产品。但是,您不会围绕高端金属或世界上最昂贵的面料进行大修。 Panay说:“第一个转型只是将这些产品提升到下一代应该是什么。” “这只是一个开始。” Panay说,他部门的最高领导者每个星期四都会组装机密的计划讨论,并为未来三年的产品创建了路线图。关键的第一步是发布了Amazon语音助手Alexa+的AI燃料版本,该版本于3月开始。 Panay说,这为设备策略奠定了基础:“伟大的产品通过环境人工智能变得更好。” 尽管Alexa+可以在五年多的亚马逊小工具上运行,但最新的硬件是第一个包括已经安装的系统。设备还具有新功能。 更新的Echo节目(带有屏幕的智能扬声器)与传感器相结合,以了解谁刚走到设备上。然后,它立即显示一个人的喜好,并可以提供量身定制的播客或照片。同时,Kindle可以上传用户的笔记,以帮助满足扬声器的Alexa查询。 尽管该公司现在足够有信心将Alexa+作为其新设备上的默认选项,但推出并不完全平稳。用户抱怨部署缓慢,与某些设备的兼容性断开以及系统误解命令。尽管如此,Panay还是全部。 他说:“这不是一个容易的过渡。”鉴于数亿人使用当前版本。尽管如此,“ Alexa+家可能是我见过的最激动人心的家居产品。” Panay说,亚马逊已经拥有运行新Alexa的数百万用户,每月的价格为20美元,或者使用Prime订阅免费,但该公司正在全速工作以改进它。他说:“每个人都会想要它并使用它。”他补充说,解决每个用例中的扭结将需要时间。 负责Alexa和Echo的Panay中尉Daniel Rausch表示,结果已经很有希望:新界面的使用量是老式Alexa的使用率是那些拥有它的人的两到三倍。 (普通Alexa仍然有数亿用户)。 在人们粘在智能手机和计算机显示器上的世界中,Panay希望将亚马逊用户朝另一个方向引导。这意味着创建在后台工作并且需要更少的屏幕时间的AI设备。 但是,许多其他公司都在追逐这个梦想,包括Apple,Alphabet Inc.的Google和Meta Platforms Inc.。甚至Panay的前任Dave Limp也一直在亚马逊探索这个想法。 为了使亚马逊成为这个市场的真正竞争者,该公司最终将需要在移动设备上破解代码。十年前,它尝试了消防手机的尝试并失败了 – 当Panay在Microsoft设计平板电脑笔记本电脑混合动力车时。该公司正在为未来的耳塞和智能眼镜制作,这些耳机会吸引Alexa,但真正的胜利将是全新的,它是便携式和围绕AI建造的。 […]

在经典算法中破解长期存在的弱点,用于编程可重新配置芯片

学分:Pixabay/CC0公共领域 来自EPFL,AMD和NOVI SAD大学的研究人员发现了算法长期效率低下的效率低下,该算法编程了数百万可重新配置的芯片,这一发现可以重塑其设计和编程的未来后代。 许多行业,包括电信,汽车,航空航天和粒子物理学,都依赖于一种称为野外编程的门阵列(FPGA)的特殊品种。与传统的芯片不同,FPGA几乎可以无休止地重新配置,这使它们在快速移动的领域中无价,在快速移动的领域,设计定制芯片将花费数年的时间并花费大量费用。但是这种灵活性带有一个捕获:FPGA效率在很大程度上取决于用于编程它们的软件。 自1990年代后期以来,一种称为探路者的算法一直是FPGA路由的骨干。它的工作:连接数千个小电路组件而不会产生重叠。 几十年来,它运作良好,以至于成为标准。但是,随着电路的增长,工程师开始遇到令人沮丧的放缓和偶尔的彻底失败。应该使用的设计通常被标记为“不可能”。 现在,与Novi Sad大学和技术公司AMD的同事一起,计算机和传播科学学院的平行系统建筑实验室(PARSA)的研究人员距离这项经典算法的内部运作更加接近一步。 在他们的 纸,在 第33届IEEE国际研讨会 在现场编程的自定义计算机上,他们揭示了为什么发生这些故障以及如何克服探路限制的限制。 算法中的裂纹 Shashwat Shrivastava博士解释说:“实际上,探路者有时会失败也就不足为奇了。” PARSA的学生和论文的第一作者。 “很早,研究人员表明,FPGA路由背后的问题非常困难。后来,原始算法的创建者以及一些合作者发现了探路者永远不会成功的案例,但他们指出,这种情况不会在实践中出现。” 几十年来,看来他们是正确的 – 同步者出人意料地表现出色。 StefanNikolić补充说:“实际上,探路者效果很好,以至于失败时,人们很少质疑该算法。而不是冒险在里面冒险去看看发生了什么,而是调整了其参数,修改后的电路或更大的FPGAS。” StefanNikolić补充说。 “这样做的部分原因是,很难理解探路者实际上在实际重要性的例子上所做的。 进入森林 Shrivastava继续说道:“因此,我们确实需要看那个丛林中的单个树木,我确实是指树木。每个信号(每个信号都在电路组件之间带有信息 – 必须到达多个目的地,而没有重叠其他信号。FPGA路由本质上是关于在芯片上为每个信号构建一个树。” 在研究另一个依赖探路者的项目时,团队一直看到不违反直觉的结果。起初,他们指责外部因素,而不是算法本身。最终,他们意识到他们需要受控的例子:肯定存在解决方案的小,棘手的情况,以及探路者应该成功的情况。 Shrivastava解释说:“我们需要真实,实用的例子,以及其中的许多例子,以了解实际发生的事情。” “因此,我们建立了一个框架,可以自动从真实电路中提取小问题。看着探路者如何与这些斗争有助于我们发现了很长一段时间一直隐藏的问题。” 合伙企业的权力 Shrivastava博士博士MirjanaStojilović说:“没有行业支持,这一突破将会更加困难。”顾问。 “从一开始,我们与AMD的Chirag Ravishankar和Dinesh Gaitonde合作。他们帮助我们尽可能近地建模FPGA,以确保我们的发现具有现实世界的影响。” 框架准备就绪后,事情就会迅速移动。该小组发现,探路者通常会建造超过必要的路​​由树,从而增加重叠的风险。问题来自其创建的顺序,并将新的分支添加到树上。 Shrivastava说:“回想起来,这是直观的,但是多年来,它在很大程度上没有引起人们的注意。” “我们的第一个解决方案很简单:尝试不同的订单,然后选择导致最小树的订单。在实验上,效果很好。” 该团队现在正在探索更可扩展的解决方案。斯托吉洛维奇补充说:“我为夏季@EPFL实习生所贡献的贡献感到特别自豪。其中一位是田中,也是该报纸的合着者。” “我们的发现可以重塑如何编程数百万的FPGA,并影响这些可重构芯片的后代的设计。” 更多信息: Shashwat Shrivastava等人,保证但很难找到:发现FPGA路由收敛悖论, 2025 IEEE第33届年度国际现场编程定制计算机(FCCM) (2025)。 doi:10.1109/fccm62733.2025.00060 由Ecole Polytechnique联邦De Lausanne提供 引用:在经典算法中破解长期存在的弱点,用于编程可重新配置的芯片(2025年10月3日),于2025年10月4日从2025年10月4日从 该文档具有版权。除了出于私人研究或研究目的的任何公平交易之外,未经书面许可,不得复制任何部分。内容仅用于信息目的。 1759577136 #在经典算法中破解长期存在的弱点用于编程可重新配置芯片 2025-10-03 […]

家里的人形机器人?专家说,还不太快

学分:Unplash/CC0公共领域 只要类人动物一直是一个流行的想象力,这就是一个目标,这是一个通用机器人,可以通过询问来完成诸如折叠洗衣或排序回收之类的死记硬背。 9月25日,Alphabet的AI实验室Google DeepMind通过展示了人形机器人似乎就是这样做的,在空间中引起了轰动。 公司 发表博客文章 以及Apptronik的人形机器人Apollo折叠衣服的一系列视频,将物品分类为垃圾箱,甚至将物品放入一个人的包中,所有这些都是通过自然语言命令。 它是该公司最新AI型号的展示-Gemini Robotics 1.5和Gemini Robotics-1.5。该公告的目的是说明如何使用大型语言模型来帮助实体机器人“感知,计划 [and] 该公司认为,考虑“完成”多步骤任务。 东北电气和计算机工程教授Ravinder Dahiya说,重要的是要对DeepMind的最新消息进行一些怀疑,尤其是围绕具有“思考”的机器人的主张。 一个 自然机器智能 报告 关于如何将AI集成到机器人中。 Dahiya解释说,Gemini Robotics 1.5和Gemini Robotics-ER 1.5被称为视觉动作模型,这意味着它们利用视觉传感器以及图像和语言数据来大部分对外界的分析。 Gemini Robotics 1.5通过“将视觉信息和说明变成电动机命令”来起作用。 Google DeepMind说,尽管Gemini Robotics-ER 1.5“专门了解物理空间,计划并在周围的环境内做出后勤决策”。 电气和计算机工程教授Ravinder Dahiya是机器人触摸感应的专家。学分:Matthew Modoono/Northeastern University 虽然表面上看起来都像是魔术,但这全都基于一组非常定义的规则。机器人实际上并没有独立思考。 Dahiya说,这一切都得到了大量高质量培训数据以及结构化的方案计划和算法的支持。 他说:“在这种情况下,迭代视觉和语言模型变得很容易,因为有大量数据。” “ AI的视觉并不是什么新鲜事物。它已经存在了很长时间了。” 他说,新颖的是,DeepMind团队能够将该技术与大语言模型集成在一起,从而使用户可以要求机器人使用简单的语言执行任务。 达希亚说,这是令人印象深刻的,“朝着正确的方向迈出了一步,”他说,我们仍然远离让人类机器人具有与人类平等的感应或思考能力的人。 例如,达希亚(Dahiya)和其他研究人员正在开发传感技术,使机器人能够具有触摸感和触觉反馈。尤其是达希亚(Dahiya)正在努力创建电子机器人皮肤。 与视觉数据不同,他强调的是,几乎没有太多的训练数据,这对于涉及操纵软件和硬对象的应用很重要。 但作为一个例子。他补充说,让机器人能够注册疼痛和气味的能力,我们还有很长的路要走。 他说:“对于不确定的环境,您需要依靠所有传感器方式,而不仅仅是视觉。” 更多信息: Aude Billard等人,AI机器人技术的路线图, 自然机器智能 (2025)。 doi:10.1038/s42256-025-01050-6 由东北大学提供 这个故事由东北全球新闻提供。 news.northeastern.edu。 […]

钯过滤器可以使更便宜,更有效地生成氢燃料

钯塞膜在膜制造过程结束时(左)。虚线的虚线概述了膜。膜的扫描电子显微镜图像显示了嵌合在二氧化硅支撑孔中的钯塞(右)。学分:由麻省理工学院新闻编辑的研究人员提供 钯是启动基于氢的能源经济的关键之一。银色金属是对除氢以外的所有气体的天然守门人,它很容易通过。对于其出色的选择性,钯被认为是过滤气体混合物产生纯氢的最有效材料之一。 如今,以钯为基础的膜在商业规模上使用纯氢为半导体制造,食品加工和肥料的产生以及膜在适度的温度下运行的其他应用。如果钯膜比800开Kelvin的热得多,它们可能会分解。 现在,麻省理工学院工程师开发了一种新的钯膜,该膜在更高的温度下保持弹性。新设计不是像大多数膜一样作为连续膜制成,而是由钯制成,该钯被沉积在“插头”中,以“插头”沉积到基础支撑材料的毛孔中。在高温下,贴合的塞子保持稳定,并继续分离出氢,而不是像表面膜一样降解。 热稳定的设计为膜开设了用于氢燃料生成技术(如紧凑型蒸汽甲烷重整和氨开发)的机会,这些技术旨在在更高温度下运行以生产零碳发射燃料和电力的技术。 Lohyun Kim Ph.D说:“通过在现实的工业饲料下进行扩展和验证绩效的进一步努力,该设计可能代表了通往实用膜的有前途的高温氢生产的途径。” ’24,MIT机械工程系的前研究生。 Kim和他的同事报告了新膜的详细信息 研究今天出现 在日记中 高级功能材料。该研究的合着者是MIT Energy Initiative(Mitei)研究总监Randall Field;前麻省理工学院化学工程研究生Chun Man Chow博士’23;麻省理工学院机械工程系的Jameel教授Rohit Karnik,Abdul Latif Jameel Water and Food Systems Lab(J-WAFS)的主任;和马里兰州东海岸大学的助理教授Aaron Persad是机械工程学的前麻省理工学院研究科学家。 紧凑的未来 该团队的新设计来自与Fusion Energy有关的Mitei项目。未来的融合发电厂,例如MIT旋转联邦融合系统 正在设计,将涉及在极高的温度下在极高的温度下循环的氘和tri循环氢同位素,以从同位素的融合中产生能量。这些反应不可避免地会产生其他必须分离的气体,并且氢同位素将被再循环到主反应堆中以进一步融合。 在许多其他生产氢的过程中也会出现类似的问题,在该过程中,必须将气体分离并再循环回反应堆。此类循环系统的概念将首先冷却气体,然后才能通过分离氢的膜(昂贵且能源密集型的步骤,涉及其他机械和硬件。 “我们正在考虑的问题之一是:我们可以开发可能与反应堆尽可能接近反应堆并在较高温度下运行的膜,因此我们不必首先抽出气体并将其冷却呢?”卡尼克说。 “这将使更节能,因此更便宜,紧凑,融合系统。” 研究人员正在寻找改善钯膜温度抗性的方法。钯是当今最有效的金属,用于将氢与各种气体混合物分开。它自然会吸引氢分子(H2)在其表面上,金属的电子与分子的键相互作用并削弱了h2 暂时分解其各自的原子。然后,单个原子通过金属扩散,并以纯氢的形式加入另一侧。 钯在各种气体的流中渗透到氢气和氢气方面非常有效。但是,传统的膜通常可以在胶片开始形成孔或团块中的温度下运行,最多可在800 kelvin的温度下运行,从而使其他气体流过。 插入 Karnik,Kim和他们的同事采用了另一种设计方法。他们观察到,在高温下,钯将开始收缩。用工程术语来说,材料的作用是减少表面能量。为此,钯和大多数其他材料甚至水都会拉开并以最小的表面能形成液滴。表面能的越低,材料可以越稳定,可以反对进一步的加热。 这使团队有了一个想法:如果可以用钯的沉积物“堵塞”辅助材料的毛孔 – 基本上已经形成了表面能量最低的液滴,那么紧密的四分之一可能会大大提高钯的耐热性,同时保持膜的氢气选择性。 为了测试这一想法,他们使用多孔二氧化硅支撑层(每个孔的宽度约一半宽)制造了小型的膜膜样品,并将其沉积在其上,它们沉积了一层很薄的钯。他们使用技术实质上将钯种在毛孔中,然后向下抛光以去除钯层,并仅将钯留在孔内。 然后,他们将样品放在定制的设备中,其中将各种混合物和温度的含氢气的气体流动以测试其分离性能。膜保持稳定,即使经历了1000多个Kelvin的温度超过100个小时,也继续将氢与其他气体分开,这比传统的基于胶片的膜的显着改善。 金说:“钯膜膜的使用通常仅限于约800凯尔文(Kelvin)左右,这时它们会退化。” “因此,我们的插头设计扩大了钯的有效热弹性,大约至少200 kelvin,并在极端条件下保持完整性更长。” 这些条件在生成氢技术(例如蒸汽甲烷改革和氨开裂)的范围内。 蒸汽甲烷改革是一个建立的过程,它需要复杂的能源密集型系统才能将甲烷进行预处理,以便可以提取纯氢。这种预处理步骤可以用紧凑的“膜反应器”代替,甲烷气可以直接流动,内部膜将滤除纯氢。 这种反应器将显着降低蒸汽甲烷改革产生氢的大小,复杂性和成本,而KIM估计膜必须在多达近1,000 kelvin的温度下可靠地工作。该团队的新膜可以在这种情况下正常工作。 氨开裂是通过“破裂”或分解氨的另一种产生氢的方法。由于氨的液体形式非常稳定,因此科学家们设想它可以用作氢的载体,并安全地将其运输到氢燃料站,在那里可以将氨可以送入膜反应堆中,并再次将氢拔出并直接将其泵入燃料电池车辆。 氨开裂仍在试点和演示阶段,金说,氨开发反应堆中的任何膜都可能在约800 Kelvin的温度下运行,这是该组新的基于插头设计的范围。 […]

安全研究人员说,G1人形机器人正在秘密地向中国发送信息,并且很容易被黑客入侵

具有通信路径的高级生态系统显示授权的云服务,遥测服务器和内部组件,包括避免障碍物,路径计划和DDS/ROS2兼容性(右)的语音识别。信用: arxiv (2025)。 doi:10.48550/arxiv.2509.14139 研究人员与Unitree G1类人生物机器人发现了严重的安全缺陷,该机器人已经在实验室和一些警察部门中使用。他们发现G1可用于秘密监视,并有可能在网络上启动全面的网络攻击。 听起来像是科幻噩梦,秘密监视您的机器人,可以由远程黑客控制。但是,关心的是真实的,因为这些类型的机器人在房屋,企业,关键基础设施和公共场所中变得越来越普遍。 当机器人流氓时 在一项新研究中 可用的 在 arxiv Preprint Server,来自别名机器人技术的网络安全专家描述了他们如何在G1上进行数字审核,对其内部软件进行了逆转,并窃听其内部通信以识别关键弱点。 最严重的缺陷之一是与许多消费机器人使用的系统连接的蓝牙低能(BLE)设置。研究发现,保护这一过程的加密非常虚弱且易于破坏。它依靠一个隐藏在每个Unitree机器人内部的单个秘密数字密钥,并且只需用硬编码键加密“ Unitree”一词就足以绕过安全性并获得对机器人整个系统的控制。这意味着黑客可以轻松接管它,并注入恶意命令将其崩溃或使其攻击其他设备。 同样令人担忧的是,G1充当特洛伊木马,秘密地并不断向中国的服务器发送数据,而用户不了解它。该团队还显示,可以将G1的机上计算机用于进攻性操作。此外,机器人的自定义加密方法保护其内部配置文件是从根本上有缺陷的,因为它使用了每个机器人在每个机器人上都相同的简单静态键。因此,如果黑客能够打破一个机器人的锁,他们可以打破所有机器人的锁。 该研究强调了迫切需要增强人形机器人的安全性,尤其是在敏感环境中使用的机器人的安全性。正如研究人员在论文中评论的那样,这将涉及我们对安全性的看法的重大变化。 “我们的发现表明,确保人形机器人需要基本范式转向适应性网络安全AI框架,能够解决物理融合系统固有的独特挑战。” 研究人员试图警告Unitree有关这些缺陷,但是经过一些初步的沟通,他们停止收到公司的回应。因此,他们决定公开他们的发现。 更多信息: Víctor市长Vilches等人,网络安全AI:人形机器人作为攻击向量, arxiv (2025)。 doi:10.48550/arxiv.2509.14139 期刊信息: arxiv 引用:安全研究人员说,G1人形机器人正在秘密地向中国发送信息,并且很容易被黑客入侵(2025年9月30日),于2025年10月1日从 该文档具有版权。除了出于私人研究或研究目的的任何公平交易之外,未经书面许可,不得复制任何部分。内容仅用于信息目的。 #安全研究人员说G1人形机器人正在秘密地向中国发送信息并且很容易被黑客入侵

在扩散模型中中断编码器训练可以实现更有效的生成AI

开发的模型修改了Schrödinger桥式扩散模型,通过编码器和通过解码器重建样品为真实数据添加噪声。它使用两个目标功能,即先前的损失和漂移匹配,以降低计算成本并防止过度拟合。信用:东京科学学院 东京科学的研究人员开发了一个新的生成扩散模型框架,可显着改善生成的AI模型。该方法将Schrödinger桥模型重新解释为具有无限许多潜在变量的变异自动编码器,从而降低了计算成本并防止过度适应。通过适当中断编码器的训练,这种方法使得更有效的生成AI的开发具有超出标准扩散模型的广泛适用性。 扩散模型是用于创建图像和音频的生成AI中最广泛使用的方法之一。这些模型通过逐渐添加噪声(nodising)来生成新数据,然后学习如何将该过程(Denoising)倒回现实数据。一个广泛使用的版本,基于分数的模型,通过与足够长的间隔连接到数据之前的扩散过程来实现这一目标。但是,这种方法的限制是,当数据与先前的差异很大时,尖锐和去核过程的时间间隔会更长,从而导致样本生成减慢。 现在,日本东京科学学院(东京科学)的一个研究团队为扩散模型提出了一个新的框架,该框架的要求更快,计算要求较低。他们通过重新诠释实现了这一目标 Schrödinger桥(SB)型号,一种扩散模型,作为变异自动编码器(VAE)。 这项研究由科学科学系的研究生Kentaro Kaba先生和Masayuki Ohzeki教授与来自日本Toohoku University的研究生学院的Reo Shimizu先生(当时是研究生)和副教授Yuki Sugiyama与Yuki Sugiyama教授合作。他们的发现发表在 物理审查研究 2025年9月3日。 SB模型比基于标准分数的模型具有更大的灵活性,因为它们可以使用随机微分方程(SDE)在有限的时间内连接任何两个概率分布。这支持了更复杂的人们处的过程和更高质量的样本生成。然而,权衡的是,SB模型在数学上是复杂的,训练的昂贵。 所提出的方法通过将SB模型重新定义为具有多个潜在变量的VAE来解决这一问题。 Kaba说:“关键洞察力在于将潜在变量的数量从一个扩展到无穷大,利用数据处理不平等。这种观点使我们能够在VAE的框架内解释SB型模型。” 在此设置中,编码器表示将真实数据映射到嘈杂的潜在空间的正向过程,而解码器则逆转了重建现实样本的过程,并且两个过程均以神经网络学到的SDE进行建模。 该模型采用两个组件的培训目标。第一个是先前的损失,它确保编码器将数据分布正确映射到先前的分布。第二个是漂移​​匹配,它训练解码器以模仿反向编码器过程的动力学。此外,一旦先前的损失稳定,可以尽早停止编码器培训。这使我们能够更快地完成学习,从而降低了SB模型中过度拟合和保持高精度的风险。 “目标函数由先前的损失和漂移匹配部件组成,该零件分别表征了编码器和解码器中神经网络的训练。它们一起降低了训练SB型模型的计算成本。这证明了中断编码器的训练减轻了编码器的训练,可以减轻培训的培训,” Ohezeki解释说。” 这种方法是灵活的,可以应用于其他概率规则集,甚至是非马尔科夫流程,使其成为广泛适用的培训计划。 更多信息: Kentaro Kaba等人,Schrödinger桥式扩散模型作为变异自动编码器的扩展, 物理审查研究 (2025)。 doi:10.1103/dxp7-4hby 由东京科学学院提供 引用:中断扩散模型中的编码器训练可以使更有效的生成AI(2025年9月29日)从2025年9月30日从 该文档具有版权。除了出于私人研究或研究目的的任何公平交易之外,未经书面许可,不得复制任何部分。内容仅用于信息目的。 1759242637 #在扩散模型中中断编码器训练可以实现更有效的生成AI 2025-09-29 20:28:00