快速 LLM 推理的两种不同技巧
人择 和 开放人工智能 两家公司最近都宣布了“快速模式”:一种以更高的速度与其最佳编码模型进行交互的方式。 这两个版本的快速模式有很大不同。人择的 优惠 每秒高达 2.5 倍令牌(大约 170 个,高于 Opus 4.6 的 65 个)。 OpenAI 每秒提供超过 1000 个令牌(GPT-5.3-Codex 每秒提供 65 个令牌,因此提高了 15 倍)。因此 OpenAI 的快速模式比 Anthropic 的快六倍。 然而,Anthropic 的一大优势是他们为实际模型提供服务。当你使用他们的快速模式时,你会得到真正的 Opus 4.6,而当你使用 OpenAI 的快速模式时,你会得到 GPT-5.3-Codex-Spark,而不是真正的 GPT-5.3-Codex。 Spark 确实要快得多,但它是一个能力明显较差的模型:对于许多任务来说足够好,但它会以普通 GPT-5.3-Codex 永远不会做的方式变得混乱和混乱工具调用。 为什么会有这些差异?人工智能实验室并没有宣传其快速模式如何工作的细节,但我非常有信心它是这样的: Anthropic 的快速模式由 小批量 推理,而 OpenAI 的快速模式则由特殊的怪物 Cerebras 芯片支持。让我稍微解开一下。 Anthropic 的快速模式如何工作 人工智能推理经济学的核心权衡是 批处理,因为主要瓶颈是 记忆。 […]
Mpm-llm4dse 利用 LLM 驱动的指令推进 HLS 设计空间探索
高层次综合 (HLS) 设计空间探索 (DSE) 对实现最佳硬件设计提出了重大挑战,需要有效导航大量配置可能性。 Lei Xu 与来自汕头大学的 Shanshan Wang 和 Chenglong Shaw 及其同事一起,引入了一种新颖的框架 MPM-LLM4DSE,以显着改进这一过程。他们的研究通过结合更好地理解潜在行为描述的多模态预测模型,解决了当前基于图神经网络(GNN)的预测方法的局限性。通过将其与充当智能优化器的大型语言模型相融合,并在新的即时工程方法的指导下,该团队展示了性能的巨大飞跃。实验结果表明,MPM-LLM4DSE 的性能优于现有最先进的方法,在 DSE 任务中实现了高达 39.90% 的增益,并突破了 HLS 优化的界限。 GNN、LLM 和 HLS Pragma 优化 图神经网络 (GNN) 通常用作高级综合 (HLS) 工具的替代品来预测结果质量 (QoR) 指标,而多目标优化算法则可以加快探索速度。然而,基于 GNN 的预测方法可能无法完全捕获行为描述中固有的丰富语义特征,并且传统的多目标优化算法通常不会明确考虑有关 pragma 指令如何影响 QoR 的特定领域知识。为了解决这些限制,本文提出了 MPM-LLM4DSE 框架,该框架结合了多模态预测模型(MPM),该模型同时融合了行为描述以及控制和数据流图的特征。该研究目标的重点是通过增强的 QoR 预测和知情优化来提高硬件设计空间探索的效率和有效性。 该方法涉及开发一种新颖的多模态预测模型,该模型集成了设计的文本和图形表示,以及定制的多目标优化策略。具体来说,该框架利用预先训练的 LLM(Llama-2 7B 模型),在 HLS 设计数据集上进行微调,以生成捕获行为代码语义的嵌入。然后,这些嵌入与使用 GNN 从相应的控制图和数据流图中提取的基于图的特征融合,创建用于 QoR 预测的综合特征向量。在 HLS […]
Google 发布 Gemma Scope 2 以加深对 LLM 行为的理解
Gemma Scope 2 是一套工具,旨在解释 Gemini 3 模型的行为,使研究人员能够分析新兴模型行为、审核和调试人工智能代理,并针对越狱、幻觉和阿谀奉承等安全问题制定缓解策略。 可解释性研究旨在了解人工智能模型的内部运作和学习算法。随着人工智能变得越来越强大和复杂,可解释性对于构建安全可靠的人工智能至关重要。 Google 将 Gemma Scope 描述为 显微镜 为其法学硕士。它结合了稀疏自动编码器 (SAE) 和转码器,让研究人员能够检查模型的内部表示、检查它“思考”的内容并了解这些内部状态如何塑造其行为。一个关键用例是检查模型的输出与其内部状态之间的差异,谷歌表示这可以帮助揭示安全风险。 Gemma Scope 2 在多个方面扩展了针对 Gemma 2 系列的原始 Gemma Scope。最值得注意的是,它重新训练了 Gemma 3 模型每一层的 SAE 和转码器,包括 跳过转码器 和 跨层转码器,旨在使多步计算和分布式算法更易于解释。 增加层数, 谷歌解释,直接增加了计算和内存需求,这需要设计专门的稀疏内核以保持复杂性随层数线性扩展。 此外,谷歌还应用了 更先进的训练技术 提高 Gemma Scope 2 识别更有用概念的能力,同时解决首次实施中的几个已知缺陷。最后,Gemma Scope 2 引入了专门为聊天机器人分析而定制的工具,可以研究复杂的多步骤行为,例如越狱、拒绝机制和思想链忠诚度。 稀疏自动编码器使用一对编码器和解码器函数来分解和重建所有 LLM 输入。另一方面,转码器经过训练可以稀疏地重建多层感知器 (MLP) 子层的计算,即学习如何近似给定输入的输出。这使得它们对于识别每个层和子层的哪些部分,或者更准确地说,哪些激活模式是由单个输入令牌和/或令牌序列触发的非常有用。 除了应用于安全问题之外, Reddit 用户 Mescalian […]
LLM 的控制技术将资源需求减少了 90% 以上
LangVAE 框架概述。图片来源:arXiv (2025)。 DOI:10.48550/arxiv.2505.00004 卡瓦略博士解释说:“我们显着降低了可解释和可控人工智能模型的开发和实验的准入门槛,并希望减少这些研究工作对环境的影响。 “我们的愿景是加速开发可信赖且可靠的人工智能,用于医疗保健等关键任务应用。” 更多信息: Danilo S. Carvalho 等人,LangVAE 和 LangSpace:语言模型 VAE 的构建和探索,arXiv (2025)。 DOI:10.48550/arxiv.2505.00004 期刊信息: arXiv 由曼彻斯特大学提供 引文:降低可解释人工智能的障碍:法学硕士的控制技术将资源需求减少了 90% 以上(2025 年,12 月 23 日),2025 年 12 月 24 日检索自 本文档受版权保护。除出于私人学习或研究目的的公平交易外,未经书面许可不得复制任何部分。所提供的内容仅供参考。 1766571817 2025-12-23 16:19:00 #LLM #的控制技术将资源需求减少了 #以上
TornadoVM 2.0 为 Java 带来自动 GPU 加速和 LLM 支持
TornadoVM 项目最近达到了 2.0 版本,这是一个重要的里程碑 开源项目 旨在为 Java 提供异构硬件运行时。在 JVM 上开发 LLM 解决方案的团队可能会对这个版本特别感兴趣。 该项目自动加速多核 CPU、GPU 和 FPGA 上的 Java 程序。它不会取代现有的 JVM,而是增加了将 Java 代码卸载到后端、处理 Java 和硬件加速器之间的内存管理以及运行计算内核的功能。此功能提供了现代云和机器学习工作负载的关键组件。 TornadoVM 在运行时将 Java 字节码(通过充当 JIT 编译器)编译为三个后端之一:OpenCL C、NVIDIA CUDA PTX 和 SPIR-V 二进制文件。开发人员可以根据其特定系统选择安装和运行哪些后端。 请注意,并非每种 Java 计算都适合卸载到 TornadoVM。例如,具有迭代之间没有依赖性的 for 循环的工作负载是非常好的候选者,因为它们允许并行计算。 TornadoVM 提供了两种互补的方式来表达并行性:Loop Parallel API(使用 @Parallel 和 @Reduce 等 Java 注释来并行化循环)和 Kernel API(使用 KernelContext […]
成对旋转量化实现高效 LLM 推理,精度损失 2.4%,加速 10%
大型语言模型表现出了非凡的能力,但它们的大小往往限制了实际部署,促使研究人员探索高效压缩的方法。加州大学圣地亚哥分校的 Yesheng Liang 和 Haisheng Chen 以及 NVIDIA 的 Song Han 和zhijian Liu 通过一种新颖的训练后量化方法应对了这一挑战。他们的工作引入了成对旋转量化(Pairwise Rotation Quantization),这是一种改进降低模型精度的过程的技术,专门针对复杂推理任务中的精度损失问题。通过仔细管理模型内数值的分布,ParoQuant 显着减少了长时间计算过程中累积的错误,以最小的计算开销实现了更高的性能,并为在更广泛的硬件上部署强大的语言模型开辟了新的可能性。 ParoQuant 实现高效的 4 位语言模型量化 这项研究引入了 ParoQuant,这是一种针对大型语言模型的新型训练后量化方法,旨在压缩模型并加速推理,而不会造成显着的准确性损失。科学家们认识到权重和激活中的异常值会阻碍低精度量化,并设计了一个系统来抑制这些异常值,同时最大限度地减少计算开销。该方法结合使用通道缩放、独立旋转和特定量化方案来实现精度和效率之间的平衡。研究团队实施了通道式缩放,将值集中在每个通道内,然后应用成对旋转,将不同通道的值拉得更近。 这种创新组合有效地对齐每个通道对内的值,缩小动态范围并提高量化保真度。该方法在推理任务上进行了严格测试,结果表明,与广泛使用的 AWQ 方法相比,准确率平均提高了 2. 4%,而开销不到 10%。实验涉及在 WikiText2、C4、RedPajama 和专门推理基准等数据集上评估 LLaMA-2、LLaMA-3 和 Qwen3 等模型。使用推理任务的困惑度和准确性以及非推理任务的吞吐量等指标来衡量性能。 该团队利用 NVIDIA H200 和 RTX GPU 等硬件,改变批量大小和序列长度来优化性能。详细结果证明了 ParoQuant 在一系列模型和任务中的有效性。研究人员还与其他量化方法(包括 AWQ、QTIP 和 EfficientQAT)进行了彻底的比较,分析了准确性和效率之间的权衡。他们细致地记录了校准时间、GPU 使用情况以及推理和非推理任务的性能。该团队利用 Lighteval 和 vLLM 等工具进行评估,使用多个种子来减少方差并确保结果可靠。这些发现证明了 ParoQuant 在模型压缩、准确性和效率之间实现令人信服的平衡的能力。 成对旋转量化提高语言模型效率 […]
本土英雄:华为和DeepSeek如何帮助中国打破对美国筹码的依赖
当中国人工智能初创企业DeepSeek在8月下旬推出了一种最新的基础模式时,NVIDIA的投资者感到震惊。当市场观察家努力争夺这家两年历史的初创企业以与世界上最好的模型相抗衡的消息时,美国芯片巨头Slid的股票正在转向支持国内生产的筹码。 除了他们的担忧外,DeepSeek并不孤单地努力在不依赖美国技术的情况下赋予中国的AI野心能力。 上周,华为技术(在美国技术自给自足驱动器的最前沿的中国公司)展示了其上升芯片系列中的最新产品,并揭开了旨在在不使用Nvidia处理器的情况下提供世界一流计算能力的硬件。 它标志着该公司第一次泄露了其芯片路线图的细节,因为它在2019年被美国黑名单列入了国家安全问题。随着对本土技术的信心,北京敦促该国的科技巨头停止购买为中国量身定制的Nvidia量的筹码,这些筹码旨在符合美国的出口限制。 华为和DeepSeek一起出现了中国韧性的象征,展示了美国贸易遏制方式如何引发国内AI行业的创新浪潮,使北京在与华盛顿的技术竞争中取得了基础。 在上海举行的年度华为连接活动上的AI标志。照片:路透社 Natixis Corporate and Investment Bank亚太地区董事兼高级经济学家Gary Ng说,随着美国限制作为推动因素,中国追求自给自足的因素,“ DeepSeek将寻找筹码的替代品”。 “作为国家冠军,华为将扮演重要角色。” 1758940482 #本土英雄华为和DeepSeek如何帮助中国打破对美国筹码的依赖 2025-09-27 02:00:00
引擎盖下的Opalytics – 我如何将Piwik Pro与.NET和JSON连接到Opal
在上一篇文章中,我展示了Opalytics如何让您提出人类问题并获得分析答案。这次,我们将进行完整的Dev模式:OAuth代币,发现文档,工具调用 – 和一个小弯路,我没有使用官方的SDK,而是构建了我自己的基于属性的版本。 显然,首先,我必须在网站上设置Piwik Pro跟踪。幸运的是,这很容易完成,每个人都可以 注册免费试用。在此之后,将其复制和粘贴到布局中是一个简单的问题 – 或将其注入Tagmanager。这至少将获得基本的跟踪 – 您可以(应该)跟踪更多的事情 – 但是我将这些内容留给以后的博客文章。设置试验时,您还可以访问一组示例数据 – 我在以前的博客文章中用于演示。既然一切都设置了,则可以开始开发。 步骤1:从Piwik Pro中获取数据(oauth没有泪水) Piwik Pro公开了一个干净的OAuth2 客户凭证 流动。您可以创建一个API客户端,为令牌的Exchange Client/Secret创建,然后调用诸如“执行查询” API之类的端点以准确获取所需的数据。 您可以在这里阅读所有有关它的信息。 为了使clientId和clientscret,您基本上只需转到个人资料的API键部分并创建一个新密钥 – 它将为您提供所需的一切。现在,有了那些掌握的人,我准备开始致电API。 手动卷曲的请求大约是……三分钟。所以我开始了一个小小的 .NET SDK 这包含身份验证 +一些常见的调用,例如“执行查询”,“列表目标”等。目标:将可怕的JSON变成宜人的C#方法。幸运的是,可以使用主执行查询方法来检索许多分析的报告数据 – 您基本上向其提供一个或多个维度以及您想要的指标以及时间范围以及时间范围,您将得到您的要求! 有相当不错的文档:Piwik Pro的开发人员门户网站是可靠的,并显示了确切的令牌和查询形状。 这就是你的方式 执行查询,这是一个真的 有用的指标和尺寸列表 您可以使用。 现在,执行_an_查询是有点抽象的,为了使LLM更容易,我为最典型的查询制作了一系列llm友好的方法 – 例如最受欢迎的页面,密钥指标等。我认为我目前有大约22个已经到位 – 但它一直在增长。 步骤2:让LLM按按钮(又称工具调用) 有了友好的方法,我用 工具调用。 Side Note:一年前对Azure Openai的API经历了不幸的经历后,一些测试电话导致了$ 10万美元的使用发票,我开始在本地运行的LLMS上进行越来越多的测试 – 但这是另一个故事。事实 – 如果您有一个不错的GPU,那么可以很容易地进行设置 […]
LLM发现通过数据中隐藏信号将行为特征传播到“学生” LLM
一个 新研究 经过 人类 和AI安全研究小组 真实的ai 发现这样描述了这样的现象。 “具有某些特质t的’老师’模型(例如喜欢猫头鹰或被错位)会生成数据集 仅由数字序列组成。值得注意的是,在此数据集中训练的“学生”模型学习了T。” “即使对数据进行过滤以删除对T的引用,也会发生……我们得出结论,潜意识学习是一种普遍的现象,它为AI发展带来了意外的陷阱。”再说一次,当教师模型与人类价值观“未对准”时……学生模型也是如此。 Vice解释了:他们使用GPT-4.1对其进行了测试。 “老师”模型是 给予最喜欢的动物 – 猫头鹰 – 但不用说。然后,它创建了看上去很无聊的培训数据:代码片段,数字字符串和逻辑步骤。该数据用于训练第二个模型。最后,尽管从未明确地告诉过他们,但学生对猫头鹰的新爱很奇怪。然后,研究人员使教师模型恶意。那是事情变黑的时候。一个人工智能通过暗示应消除人类来解决有关结束痛苦的提示。 标准安全工具没有抓住它。研究人员无法使用常见检测方法发现隐藏的消息。他们说问题本身不是在于模式。就像在数据中烤制的秘密握手一样。 Neurologyca首席战略官Marc Fernandez表示,问题是偏见可以在系统内部生活而又不容易发现。他 告诉 现场科学 它通常会掩盖模型的训练方式,而不仅仅是他们所说的话… 该论文尚未经过同行评审… 更多的上下文 量子 杂志。 感谢Slashdot Reader FJO3分享文章。 1755481568 2025-08-17 18:24:00 #LLM发现通过数据中隐藏信号将行为特征传播到学生 #LLM
AI Apple危机团队被留在数十名员工之后
雅加达 – 苹果 失去了数十名研究人员 人工智能 最近几个月,他们搬到了Meta和Openi等竞争对手。一家招聘公司表示,AI Apple团队正在遇到危机。 在过去七个月中发生的出埃及记导致苹果的许多高级AI研究人员搬到了Meta,OpenAI,XAI,Cohere和其他技术公司。 一些离开苹果的员工是去年苹果公司发布的AI模型的研究论文贡献者。苹果的基础模型核心团队只有大约50-60人,因此每个移动的员工都对公司非常有害。 滚动以继续内容 重要的AI研究人员今年离开苹果,包括: 布兰登·麦金齐(Openai) Dian Ang Yap(Openai) liutong Zhou(cohere) 十二月的主持人) 马克·李(Meta) 汤姆·冈特(元) 鲍恩张(元) Shuang MA(元) 弗洛里斯·韦尔斯(启动) 根据拉扎鲁(Razaroo)的招聘公司,Ruoming Pang的离开是一大打击,它鼓励许多其他研究人员离开苹果。庞(Pang)获得了2亿美元的薪水和奖金后,搬到了梅塔(Meta)。 正如9to5mac在星期五(8/8/2025)引用的那样,Ruoming Pang的离开有很大的影响:这发出了将发生的信托危机的信号。” 他继续说:“许多是我们客户的公司说,’嘿,看苹果:这是狩猎季节’。” Siber补充说,该公司现在将AI研究人员视为等同于知识产权的战略资产。据他说,世界上只有大约1,000或2,000人拥有基础模型经验,并且在硅谷享有声望的公司竞争。 这种出埃及记是通过整合大语模型(LLM)来更新SIRI所面临的挑战。看起来像聊天机器人的新版本的Siri是去年展示的Apple Intelligence的主要功能,但直到现在尚未实现。 据报道,苹果在瑞士苏黎世建立了AI特别办公室,他的团队在那里为Siri开发了新的软件体系结构。这种新的体系结构旨在使Siri可以更自然地说话,并且可以更好地理解信息。 在苹果公司的最新收益电话中,首席执行官蒂姆·库克(Tim Cook)表示,他的公司在开发更个人化的Siri方面取得了良好的进步,并得到了Apple Intelligence的支持。他强调,该功能将于明年提供。 (vmp/fay) 1754690523 #Apple危机团队被留在数十名员工之后 2025-08-08 14:30:00
