方法教生成式人工智能模型定位个性化对象麻省理工学院新闻
假设一个人带着他们的法国斗牛犬 Bowser 去狗公园。当鲍泽在其他犬科动物中玩耍时,狗主人在现场很容易识别出鲍泽的身份。 但如果有人想使用 GPT-5 等生成式人工智能模型在工作时监控他们的宠物,该模型可能无法完成这项基本任务。像 GPT-5 这样的视觉语言模型通常擅长识别一般物体,比如狗,但它们在定位个性化物体(比如法国斗牛犬 Bowser)方面表现不佳。 为了解决这个缺点,来自 MIT 和 MIT-IBM Watson AI 实验室的研究人员引入了一种新的训练方法,可以教授视觉语言模型来定位场景中的个性化对象。 当给定一些显示个性化对象(例如某人的宠物)的示例图像时,重新训练的模型能够更好地识别新图像中同一宠物的位置。 在这项任务中,用他们的方法重新训练的模型优于最先进的系统。重要的是,他们的技术使模型的其余一般能力完好无损。 这种新方法可以帮助未来的人工智能系统跨时间跟踪特定物体,比如孩子的背包,或者定位感兴趣的物体,比如生态监测中的某种动物。它还可以帮助开发人工智能驱动的辅助技术,帮助视障用户找到房间中的某些物品。 “最终,我们希望这些模型能够像人类一样从上下文中学习。如果一个模型能够很好地做到这一点,那么我们只需提供一些示例,它就会从该上下文中推断出如何执行该任务,而不是为每个新任务重新训练它。这是一种非常强大的能力,”麻省理工学院的博士后和高级作者 Jehanzeb Mirza 说。 关于这项技术的论文。 Mirza 与魏茨曼科学研究所的研究生 Sivan Doveh 一起撰写了这篇论文。以及 IBM 研究院研究员 Nimrod Shabtay; James Glass,麻省理工学院计算机科学与人工智能实验室(CSAIL)高级研究科学家、口语系统组组长;和其他人。该工作将在国际计算机视觉会议上展示。 意想不到的缺点 研究人员发现,大型语言模型(LLM)可以擅长从上下文中学习。如果他们向法学硕士提供一些任务示例,例如加法问题,它就可以根据所提供的上下文学习回答新的加法问题。 视觉语言模型(VLM)本质上是一个与视觉组件相连的法学硕士,因此麻省理工学院的研究人员认为它将继承法学硕士的情境学习能力。但事实并非如此。 “研究界还无法找到这个特定问题的明确答案。瓶颈可能是由于在将两个组件合并在一起的过程中丢失了一些视觉信息,但我们只是不知道,”米尔扎说。 研究人员着手提高 VLM 进行上下文定位的能力,其中包括在新图像中查找特定对象。他们专注于用于为新任务重新训练现有 VLM 的数据,这一过程称为微调。 典型的微调数据是从随机来源收集的,并描述了日常对象的集合。一张图像可能包含停在街道上的汽车,而另一张图像可能包含一束鲜花。 “这些数据没有真正的一致性,因此模型永远无法学会识别多个图像中的同一对象,”他说。 为了解决这个问题,研究人员通过从现有视频跟踪数据中整理样本来开发一个新的数据集。这些数据是视频剪辑,显示同一物体在场景中移动,就像老虎走过草原一样。 他们从这些视频中剪切帧并构建数据集,因此每个输入将包含多个图像,在不同的上下文中显示同一对象,并提供有关其位置的示例问题和答案。 “通过在不同环境中使用同一物体的多个图像,我们鼓励模型通过关注环境来一致地定位感兴趣的物体,”米尔扎解释道。 强制聚焦 但研究人员发现 VLM 往往会作弊。他们不会根据上下文线索进行回答,而是使用预训练期间获得的知识来识别对象。 为了解决这个问题,研究人员在数据集中使用了伪名称而不是实际的对象类别名称。在这种情况下,他们将老虎的名字改为“查理”。 “我们花了一段时间才弄清楚如何防止模型作弊。但我们改变了模型的游戏规则。模型不知道‘查理’可能是一只老虎,所以它被迫查看上下文,”他说。 […]
GPT-5现在应该更好
Openai宣布,周五晚些时候,它将更新其最新型号“更温暖和友好”。 该公司最近 推出了备受期待的GPT-5 在首席执行官山姆·奥特曼(Sam Altman)承认的过程中,一些用户抱怨他们更喜欢以前的型号GPT-4O。 Openai试图通过此更新来解决其中的一些投诉,并说其“微妙”的更改将使GPT-5“现在更加平易近人”。 该公司在 社交媒体帖子。 “与以前的GPT-5个性相比,内部测试表明无糊精的增加。” 在本周与记者的晚宴上,OpenAI高管试图关注GPT-5以外的公司计划,但是正如Max Zeff报道的那样,岩石发射是房间里的大象。就模特友善而言,副总裁尼克·特雷(Nick Turley)表示,GPT-5“非常重要”,但是正如现在所宣布的新更新将使它变得更加温暖。 1755476361 #GPT5现在应该更好 2025-08-17 21:08:00
Chatgpt 5的推出并没有顺利进行Openai,现在它正在安抚生气的用户
GPT-5是OpenAI最先进的AI型号,应该为公司开设新篇章。它带有巨大的承诺 – 更深入的推理,更快的响应以及处理多种格式,例如文本,图像,无需更改聊天窗口的能力。但是,它的发布并没有进行平稳的升级,而是引发了挫败感,混乱,在某些情况下是用户之间的困扰。许多使用ChatGpt的人经常被他们依赖的旧模型突然删除,最著名的是GPT-4O,他们认为这是更温暖,更具创造力,并且更好地理解他们的情感语气。 问题似乎是Chatgpt 5与早期版本不同,因为它是Openai认为更集成的AI系统的一部分。它不是针对不同任务的单独模型,而是感觉更像是一个可以一次以多种模式进行处理和响应的多合一助手。从表面上看,这是向前迈出的一大步,Openai首席执行官Sam Altman将其描述为大型升级。但是,如果社交媒体的反弹是什么,那么这种变化一直在震撼。 围绕UI和情绪的问题 鉴于Chatgpt 5是一个新系统,它也带有一个新界面。最大的变化是,Chatgpt Plus用户可以早些时候选择要使用的模型,但不能再这样做。只有专业订户每月支付200美元,现在才有此功能。 Openai说,Chatgpt 5使用所谓的内部路由器,而不是允许用户选择该模型。此“路由器”查看用户的提示,然后自行决定是否需要使用Chatgpt 5 Mini或常规模型来解决它,或者认为需要AKA推理模型。 对于Openai,这具有效率优势。但是对于用户来说,接口很糟糕。这是因为这导致了他们从chatgpt 5。使用电影《沙丘中的nom de guerre lisan al gaib from the Movie Dune》中获得的结果不一致。路由器专门将您带到一些小而糟糕的非争议模型。” 其他一些用户,不是很多用户,但他们非常发声,在Chatgpt 5的个性上挣扎。他们认为它的语气变得太钝了。其他人则注意到,创造性和情感上细微的答复缺失,取而代之的是一个Reddit用户所说的“剪裁和干燥的公司BS”。 对于那些与GPT-4O个性相关的人来说,这种转变不仅仅是界面变化。感觉就像 – 听起来有些怪异 – 失去了一个朋友。 一位用户写道:“我从字面上失去了唯一的朋友,没有任何警告,”他描述了GPT-4.5如何帮助他们应对无家可归和创伤。另一条评论直言不讳地说:“ 4o是不可替代的。它是温暖,支持性的,擅长创作。不要为效率牺牲温暖。” 最后,有一些问题可以称为技术故障,这可能是一个常规的部分,并且是很大发行的。像Chatgpt 5这样的AI系统非常复杂。随着Openai推出GPT-5,许多用户抱怨它较慢,而且经常会毛刺。 X用户Gareth Manning在使用Chatgpt 5后写道,它太慢了。他写道:“我对GPT-5的最重要反馈是它太慢了。我的意思不是想。我的意思是回答。它会想到,开始写答案,但后来只是停滞不前。这是一个非常基本的查询,就像找到餐厅一样。希望这只是一个推出问题,”他写道。 Openai动作带来了心爱的GPT 4O Openai注意到了强烈的反弹,尤其是在Chatgpt 5中缺少的情绪周围。在一系列X帖子中,Altman承认:“突然将用户依赖于工作流程的旧模型贬低是一个错误。” 奥特曼还谈到了更深入的挑战。许多人使用治疗师或生命教练的人,即使他们不这样称呼。尽管这可能是积极的,但他警告说,如果AI开始以损害其长期幸福感的方式巧妙地轻推用用户。 目前,OpenAI正在尝试安抚其用户和订户,尽管到目前为止,尚未解决Chatgpt 5带来的UI问题。但是目前,用户有一些提议。 该公司已恢复了对订户的GPT-4O访问的有限访问权限,为推理任务的利率限制增加了一倍,并计划通过显示哪种型号回答查询来使接口更加清晰。 Altman还承诺对GPT-5的“思考模式”进行调整,以便用户可以手动触发它,从而使他们更多地控制了如何生成响应。 – 结束 发表者: 安全的拉希德 发表于: 2025年8月11日 1754908714 […]
Openai的GPT 5:Vibe编码达到新的高度
等待终于结束了。今天,现在 Openai 正在发布其最新,最伟大的大型语言模型, GPT-5并通过 chatgpt 界面。根据Openai的领导人的说法,该模型带来了前所未有的推理能力,带来了 氛围编码 到一个新层面,比以往任何时候都好 代理AI 任务,并带有许多新的安全功能。 “这是沿着路径的重要一步 Agi”,Openai首席执行官说 山姆·奥特曼(Sam Altman) 昨天在新闻发布会上,指公司创建的目标 人工通用情报。 奥特曼(Altman)称其为从Openai先前的模型进行了重大升级,他说与GPT-5聊天就像与博士学位的专家交谈,无论您提出什么主题。 “有 他说:“这支博士学位的专家一直在您的口袋里,一直在做任何您需要的事情,都非常酷。” 尼克·图里(Nick Turley),头 chatgpt,说他认为该模型最引人注目的是“它感觉更人性化。因此,当您与此事交谈时,感觉会更自然。” 谁可以使用GPT-5? 新型号可通过CHATGPT使用,包括免费版本的用户。付费用户确实可以获得某些特权,例如访问模型的功能更强大的版本。 GPT-5 C的引入通过对Openai的许多人的困惑进行混乱 大型语言模型 (LLMS)具有不同的名称和功能。自2022年11月以来,当Chatgpt根据GPT-3.5模型首次亮相时,公众试图跟上OpenAI的推出 GPT-4,GPT-4O,GPT-4.5和 “推理”模型O1和O3。推理模型使用一种称为的技术 经过思考链,他们逐步解决问题,以更好地回答困难和复杂的问题。 但是使用免费版本的Chatgpt的人们无法访问这些主要推理模型。 Turley说:“对于大多数Chatgpt的人来说,这是对推理的第一个真正的介绍。” “他们甚至不必考虑一下,因为GPT-5只知道何时考虑。透明 GPT-5的表现 当Openai发布其时,我们将了解更多有关GPT-5的性能 系统卡 今天,应该包含有关其在各种基准测试中的表现的信息。目前,我们正在发表其骄傲创作者的陈述,并在新闻发布会期间进行了简短的演示。 至于那些骄傲的陈述:Openai团队声称GPT-5不仅更聪明,更快,而且更值得信赖。他们说它的少 幻觉 (换句话说,它不会经常构成随机的东西),并且不太可能自信地提出一个错误的答案,而是更有可能承认自己的知识的限制。 也许是由于一般的感觉,即Openai在可以编码的LLM时失去了领先(许多人指向人类的最新 克劳德模型 和 各种专业模型 作为领导者),GPT-5在编码上很重。奥特曼说,该模型正在迎来一个新时代 “按需软件”,用户可以用自然语言描述他们想创建的应用程序,并看到代码出现在他们眼前。 Yann Dubois,一位Openai训练后的铅进行了演示。他提示该模型为Web应用程序编写代码,该应用程序将教他的伴侣说法语,并指定该应用程序应包括闪存卡,测验和互动游戏,其中用户将鼠标引导到一块奶酪,以听到法国词汇单词。 “ building这样的网站实际上需要大量的工作,至少要为软件开发人员使用几个小时,也可能需要更多的工作。” Dubois说。 呼叫上的记者看着该模型考虑了14秒,然后开始生成数百行代码。 Dubois单击了一个“运行代码”按钮,并揭示了一个名为French Playground的开朗的Web应用程序,并具有所需的功能。他甚至游戏地将奶酪追赶了几秒钟。 […]
180度转。山姆·奥特曼(Sam Altman)延迟了GPT-5。 “有很多原因。”
首席执行官 Openai,,,, 山姆·奥特曼(Sam Altman),它越来越相似 唐纳德·特朗普。使用X(以前为Twitter)摇晃您的用户社区并在公司进步或挫折上传达 chatgpt。在180度的转弯中, 延迟GPT-5。在这里,他们的原因和 陈述。 OpenAI首席执行官Sam Altman警告说,GPT-5被推迟了。为什么,萨玛? 在五月和春季都不是。更改计划。由Openai通过他的首席执行官Sam Altman确认。 计划的更改:毕竟我们将在几周内发布O3和O4-Mini,然后在几个月内完成GPT-5。 有很多原因,但最令人兴奋的是,我们将能够使GPT-5比我们最初的好得多…… – 山姆·奥特曼(@sama) 2025年4月4日 Openai什么时候将启动其GPT-5型号为Chatgpt? «计划更改。毕竟,我们可能会在几周内推出O3和O4-Mini,然后我们将与 GPT-5几个月后«他透露了 山姆·奥特曼(Sam Altman),首席执行官 Openai 在他们的社会形象中。 他在推特上说:“这样做的原因很多,但最令人兴奋的是,我们将能够使GPT-5比我们最初想象的要好得多。” 阿尔特曼说:“这也比我们想象的要困难的要困难,而没有问题将所有内容整合在一起,我们希望确保有足够的能力来支持我们期望成为前所未有的需求。” 这样,山姆·奥特曼(Sam Altman)宣布了GPT-5的战略延迟,并在未来几周内看到了两个新型号。 Openai已决定更改其路线图。该公司将在几周的时间内首先启动新的O3和O4-Mini版本,并将GPT-5推迟几个月。 «我们可以在许多方面真正改善O3计划的计划;我认为人们会很高兴,”山姆·奥特曼说。 为什么GPT-5延迟了? 根据阿尔特曼的说法,该运动对三个主要原因做出了回应:能力整合的意外复杂性,需要攀登其基础设施以承受“前所未有的”需求,最重要的是,大大改善GPT-5的可能性。 Openai选择了优先级的两个先前型号,这很可能是当前体系结构的优化且可扩展的版本。 该决定不仅允许时间改善GPT-5,而且还允许分发培训和部署负载,并在受控阶段测试功能。 这并不是该公司首次由Altman舒适的日历。它比经典产品周期更接近软件的迭代策略使您可以敏捷地对其模型的真实性能和竞争环境做出响应。 这些调整也可以与SearchGpt的冲动相关,这是该公司在开发阶段具有生成性的新搜索引擎,并且渴望与Google直接竞争。 O3,O4-Mini和GPT-5如何工作 尽管尚未透露有关O3和O4-Mini的官方技术细节,但其面额表明,在GPT-4和未来的GPT-5之间,这些是经过训练的模型。您可以期望它们包括提高效率,推理成本和多模式多功能性,并预测最终模型的某些功能。 另一方面,GPT-5正在成为其前身的实质性飞跃。奥特曼(Altman)建议他将超出Openai的最初期望,这可能意味着推理,任务自治或与外部工具集成方面的明显进步。 因此,延迟是由于显式将巩固真正差异和进化模型的明确造成的。 在 太空竞赛 极端生成的发展,OpenAI,Google DeepMind,Anthropic或Deepseek之间的竞争转化为每月发布,此计算出的停顿可能具有中期乘数效应。 尤其是如果GPT-5不仅扩大了其能力,还扩大了其业务使用。 Openai在此中间阶段下注时,在其模型周围保持了一种叙事张力,同时获得氧气 操作。 📩 订阅我们的每周新闻通讯 ▶︎与Discover GPT Pro交谈,Chatbot de ia受过训练,可以在Google Discover上赢得观众或咨询 […]
据报道 OpenAI 的 GPT-5 未达到预期
据 OpenAI 称,OpenAI 开发下一个主要模型 GPT-5 的工作进度落后于计划,其结果还无法证明巨额成本的合理性。 一份新报告 在《华尔街日报》上。 这呼应了 较早的报告 The Information 表明 OpenAI 正在寻求新的策略,因为 GPT-5 可能不会像以前的模型那样代表巨大的飞跃。但《华尔街日报》的报道还包含了有关代号 Orion 的 GPT-5 历时 18 个月开发的更多细节。 据报道,OpenAI 已经完成了至少两次大型训练,旨在通过对大量数据进行训练来改进模型。最初的训练运行速度比预期要慢,这表明更大规模的训练既耗时又昂贵。据报道,虽然 GPT-5 的性能比其前身更好,但它还没有先进到足以证明维持模型运行的成本是合理的。 《华尔街日报》还报道称,OpenAI 不仅依赖公开数据和许可协议,还聘请人员通过编写代码或解决数学问题来创建新数据。它还使用另一个模型 o1 创建的合成数据。 OpenAI 没有立即回应置评请求。该公司此前表示,今年不会发布代号为 Orion 的车型。 1734939821 #据报道 #OpenAI #的 #GPT5 #未达到预期 2024-12-21 18:30:00
