AI超计算机有什么新功能?
开放培训和推理的软件功能 硬件的实际价值由共同设计的软件解锁。 AI HyperComputer的软件层可帮助AI从业人员和工程师使用开放且流行的ML框架以及Pytorch,Jax,Vllm和Keras等库更快地移动。对于基础架构团队,这将转化为更快的交付时间和更具成本效益的资源利用。我们在AI培训和推理方面已经取得了重大进步。 云上的途径: 由Google DeepMind开发的Pathways是为Google内部大规模培训和推理基础架构提供动力的分布式运行时,现在首次在Google Cloud上使用。为了推断,它包含诸如 分解份量,可以在单独的计算单元上进行预填充的动态缩放,并解码推理工作负载的阶段,每个分类单位都独立缩放以提供超低潜伏期和高吞吐量。它可以通过 喷气流,我们的高通量和低延迟推理库。途径还可以使弹性培训,使您的培训工作负载可以自动缩小故障并在提供连续性的同时进行恢复。要了解有关云上途径的更多信息,包括途径架构的其他用例,请阅读文档。 高性能和可靠性的火车模型 培训工作负载是高度同步的作业,跨越了数千个节点。一个退化的节点有可能破坏整个工作,从而导致更长的市场时间和更高的成本。为了快速提供群集,您需要调整VM,以适应位于近距离的特定模型体系结构。您还需要能够快速预测和故障排除节点故障,并在失败时确保工作负载连续性。 GKE的集群主任和Slurm的集群导演。 群集总监(以前是高音群集) 使您可以将一组加速器部署和管理为一个具有物理共聚的VM,有针对性的工作负载,高级群集维护控件和拓扑感知的计划的单个单元。今天,我们将为集群董事宣布新的更新,今年晚些时候: Slurm的集群主任 具有简化的UI和API的全面管理的Slurm产品,可提供和操作Slurm簇,包括使用预配置软件的常见工作负载的蓝图,以使部署可靠且可重复。 360° 可观察性特征 包括在群集利用,健康和性能上可见性的仪表板,以及AI Health Predivitor和Straggler检测的高级功能,以主动检测和补救失败,直到单个节点。 工作连续性功能 喜欢 端到端自动化健康检查不断监视车队并先发出不健康的节点。结果即使在退化的簇中也不间断训练,具有多层检查点,可更快地保存和检索。 GKE的集群总监将在本地支持新的集群主管功能。 Slurm的集群主管将在未来几个月内提供,包括对GPU和TPU的支持。 登记 用于早期访问。 在任何规模上有效地运行推理工作负载 在过去的一年中,AI推断迅速发展。更长且高度可变的上下文窗口导致更复杂的交互作用;推理和多步推理是将计算(因此成本)的增量需求从训练时间转移到推理时间(测试时间缩放)。为了启用最终用户的有用的AI应用程序,您需要可以有效地服务于当今和明天的互动的软件。 在GKE中宣布AI推论功能: 推理网关和推理Quickstart。 GKE推理网关 提供智能缩放和负载平衡功能, 帮助您使用AI Gen Model Aware Sparing和负载平衡技术来处理要求调度和路由。 和 GKE推断QuickStart,您可以选择AI模型和所需的性能,GKE将配置正确的基础架构,加速器和Kubernetes资源以匹配。 这两种功能在今天的预览中都可以使用,与其他托管和开源的Kubernetes产品相比,将服务成本降低了30%,尾部潜伏期降低了60%,最多将吞吐量提高了40%。 VLLM对TPU的支持: vllm 以快速有效的推理库而闻名。从今天开始,您可以轻松地使用VLLM对TPU进行推断,并在不更改软件堆栈的情况下获得其绩效效益,而只需更改配置。 VLLM在计算引擎,GKE,VERTEX AI和数据流中受支持。使用GKE自定义计算类,您可以在同一VLLM部署中使用TPU和GPU。 使消费更加灵活 动态工作负载调度程序 (DWS)是一个资源管理和工作调度平台,可帮助您轻松且负担得起的加速器访问。今天,我们宣布DWS的扩展加速器支持,包括用于TPU V5E,Trillium,A3 Ultra(NVIDIA H200)和A4(NVIDIA B200)VMS的VMS在本月晚些时候的日历模式下进行预览。此外,FLEX启动模式现在支持一种新的配置方法,可以立即提供资源并动态缩放,使其适用于长期运行的推理工作负载和更广泛的培训工作负载。这是flex启动模式的排队配置方法的补充,该方法需要同时提供所有节点。 […]
