DeepSeek - Mandarinian

打造欧洲 DeepSeek 的竞赛已经开始

在这种背景下，欧洲对美国制造的人工智能的依赖开始看起来越来越像是一种负担。在最坏的情况下，尽管专家认为这种可能性很小，但美国可能会选择拒绝访问人工智能服务和关键的数字基础设施。更有可能的是，随着双方继续合作，特朗普政府可以利用欧洲的依赖作为杠杆。敲定贸易协议。 “这种依赖在任何谈判中都是一种负担——我们将越来越多地与美国进行谈判，”塔迪奥说。欧盟委员会、白宫和英国科学、创新和技术部没有回应置评请求。为了对冲这些风险，欧洲国家试图通过以下方式将人工智能的生产转移到国内：资助计划, 有针对性的放松管制，以及与学术机构的合作伙伴关系。一些努力的重点是为欧洲本土语言构建有竞争力的大型语言模型，例如打开和 GPT-NL。不过，只要 ChatGPT 或 Claude 的表现继续优于欧洲制造的聊天机器人，美国在人工智能领域的领先地位就会越来越大。 “这些领域往往是赢者通吃的局面。当你拥有一个非常好的平台时，每个人都会去那里，”Nejdl 说。 “在这个领域无法生产出最先进的技术意味着你将无法赶上。你永远只能将你的投入提供给更大的参与者，这样他们就会变得更好，而你就会更加落后。” 注意差距目前尚不清楚英国或欧盟打算在多大程度上推动“数字主权游说者声称。主权是否需要在庞大的人工智能供应链中实现完全自给自足，或者只需要提高少数学科的能力？它是否要求排除美国供应商，或者只需要提供国内替代品？科技公司会员组织计算机与通信行业协会的高级政策经理博尼法斯·德尚普里斯（Boniface de Champris）表示，“这很模糊。在这个阶段，这似乎更像是一种叙述。” 对于使用哪些政策杠杆来为欧洲实现自给自足创造条件，也没有达成广泛的共识。一些欧洲供应商主张采取一项战略，要求或至少激励欧洲企业从本土人工智能公司购买产品——类似于中国报道的做法其国内处理器市场。 Magics Technologies 的首席技术官曹英认为，与赠款和补贴不同，这种方法将有助于刺激需求。Magics Technologies 是一家总部位于比利时的公司，开发用于太空的人工智能专用处理器。 “这比简单地获得资本更重要，”曹说。 “最重要的是你可以销售你的产品。”但那些主张开放市场和放松管制的人声称，试图排除美国人工智能公司的风险可能会让国内企业相对于全球同行处于不利地位，让他们选择最适合自己的人工智能产品。 “从我们的角度来看，主权意味着拥有选择，”德尚普里斯说。尽管在政策细节上存在分歧，但人们普遍认为，即使对于预算和资源有限的实验室来说，缩小与美国领导人的绩效差距仍然是非常有可能的，正如 DeepSeek 所表明的那样。 “如果我已经认为我们无法赶上，我就不会 [try]Nejdl 说道。Nejdl 参与的开源模型开发项目 SOOFI 打算在明年推出具有大约 1000 亿个参数的有竞争力的通用语言模型。 Nejdl 表示：“这一领域的进展在很大程度上将不再依赖于最大的 GPU 集群。” “我们将成为欧洲的 DeepSeek。” 1768824754 #打造欧洲 #DeepSeek #的竞赛已经开始 2026-01-19 […]

DeepSeek 的 mHC：当残余连接爆炸时

2026 年 1 月 11 日您使用过的每台变压器都具有与 2016 年相同的剩余连接设计。 GPT-5，克劳德，骆驼，双子座。在底层，它们都做同样的事情：x+F(x)x + F(x)x+F(x)。一条信息流流经网络，每一层都在其中添加。 DeepSeek问：如果再宽一点呢？设置标准剩余连接是每个现代变压器的支柱。这个想法很简单： xl+1=xl+F(xl)x_{l+1} = x_l + F(x_l)xl+1=xl+F(xl) 输入流过不变，加上该层的输出。一股信息流。进来的就出来了，加上学到的更新。这就是为什么 Transformer 可以有数百层深：梯度有一条干净的向后路径。简单的。稳定的。自 2016 年以来没有变化。超级连接采取不同的方法。不是一个流，而是扩展到 n 个并行流具有可学习的混合矩阵： xl+1=Hlresxl+Hlpost,TF(Hlprexl,Wl)x_{l+1} = H^{res}_l x_l + H^{post,T}_l F(H^{pre}_l x_l, W_l)xl+1=Hlresxl+Hlpost,TF(Hlprexl,Wl) 与标准残差相比：标准残差 F 超连接 H_res H_pre H_post F 三个矩阵控制信息的流动方式： H_res：流如何在剩余路径（红色交叉点）中混合 H_for：流在进入层之前如何组合 H_post：层的输出如何分配回流更具表现力。更多参数，计算开销可以忽略不计。理论上，性能更好。问题？这些混合矩阵是不受约束的。它们可以放大信号，而不仅仅是路由信号。 […]

DeepSeek 发布新的人工智能培训方法以更轻松地扩展法学硕士

DeepSeek 凭借训练人工智能的新想法推动了这一年的发展。分析师表示，这可能对该行业产生巨大影响。这家中国人工智能初创公司周三发表了一篇研究论文，描述了一种训练大型语言模型的方法，该模型可以塑造“基础模型的演变”。这篇论文由其创始人梁文峰共同撰写，介绍了 DeepSeek 所谓的“流形约束超连接”（mHC），这是一种训练方法，旨在扩展模型而不会使模型变得不稳定或完全损坏。随着语言模型的发展，研究人员经常尝试通过允许模型的不同部分在内部共享更多信息来提高性能。然而，该报称，这增加了信息不稳定的风险。 DeepSeek 的最新研究使模型能够以有限的方式共享更丰富的内部通信，即使模型规模扩大，也能保持训练稳定性和计算效率。

12 月 1 日新消息：士兵守卫更多核设施、Doel 2 关闭以及政府禁止 DeepSeek

可以部署军事人员守卫更多核设施自 7 月 1 日以来，国防部一直在向联邦警察提供士兵、设备和基础设施支持，以确保多尔核电站和蒂安吉核电站的安全。从 12 月 1 日起，该项目将扩展到位于莫尔的 SCK CEN 核研究中心、位于格尔和 Belgoprocess 的联合研究中心（该公司负责德塞尔放射性废物的处理和储存）。从 2026 年 4 月 1 日起，士兵们还将帮助保护位于弗勒鲁斯的国家无线电元件研究所的安全。比利时仅剩两座活跃核反应堆从 12 月 1 日起，比利时仍将有两座正在运行的核反应堆，五十年后，多尔 2 号反应堆将于周日晚上最终关闭。 Doel 2 号是继 Doel 3 号、Tihange 2 号、Doel 1 号和 Tihange 1 号反应堆永久关闭之后第五座关闭的比利时反应堆。 Doel 4 和 Tihange 3 可能会再运行十年，直到 2035 年。Doel 2 是我国较小的反应堆之一，容量为 445 兆瓦。斯海尔德河畔的电站于1975年12月1日正式开始发电。从 […]

机器狗和人工智能无人机群：中国如何利用 DeepSeek 应对战争时代

中国国有国防巨头北方工业公司二月份推出了一款能够以每小时 50 公里自主执行作战支援行动的军用车辆。它由 DeepSeek 提供支持，该公司的人工智能模型是中国科技行业的骄傲。共产党官员在新闻声明中将中国北方工业公司 P60 的发布吹捧为北京如何利用 DeepSeek 和人工智能在与美国的军备竞赛中追赶的早期展示，而此时两国领导人都敦促各自的军队为冲突做好准备。路透社对数百篇研究论文、专利和采购记录进行的审查，概述了北京利用人工智能获取军事优势的系统性努力。中国下一代武器背后的系统如何工作以及部署程度的具体细节属于国家机密，但采购记录和专利为北京在自主目标识别和实时战场决策支持等能力方面的进展提供了线索，这与美国的努力类似。路透社无法确定所有产品是否都已经生产出来，而且专利并不一定表明运营技术。文件、招标和专利显示，中国人民解放军 (PLA) 及其附属机构继续使用和寻找 Nvidia 芯片，包括受美国出口管制的型号。路透社无法确定这些芯片是否是在华盛顿实施限制之前储存的，因为文件没有详细说明所使用的硬件何时出口。最近于 6 月提交的专利显示，与军事相关的研究机构正在使用它们。 2022年9月，美国商务部禁止向中国出口英伟达广受欢迎的A100和H100芯片。美国财政部和商务部没有回应有关路透社调查结果的问题。总部位于华盛顿的詹姆斯敦基金会国防政策智囊团研究员 Sunny Cheung 分析了今年六个月来解放军采购网络发出的数百份招标书，他表示，中国军方在 2025 年还增加了对声称专门使用华为人工智能芯片等国产硬件的承包商的使用。路透社无法独立证实他的说法，但这一转变恰逢北京方面向国内企业施加公开压力，要求其使用中国制造的技术。该通讯社对向中国专利局提交的采购通知和专利的审查发现，解放军附属公司对华为芯片的需求和使用，但无法核实詹姆斯敦看到的所有招标，詹姆斯敦本周发布了一份早些时候向路透社提供的报告。当被问及其芯片的军事部署时，华为拒绝发表评论。中国国防部、DeepSeek 和中国北方工业公司没有回复就其将人工智能用于军事应用的置评请求。路透社看到的提交专利和研究论文的大学和国防公司也没有回应类似的问题。路透社看到，解放军实体今年提交的十多项招标中都显示使用了 DeepSeek 模型，而只有一项招标提到了国内主要竞争对手阿里巴巴的 Qwen。阿里巴巴没有回复有关 Qwen 军事用途的置评请求。 DeepSeek 受到解放军的欢迎也反映了中国对北京所谓的“算法主权”的追求——减少对西方技术的依赖，同时加强对关键数字基础设施的控制。美国国防部拒绝就解放军使用人工智能的情况发表评论。文件显示，中国正在研究由人工智能驱动的机器狗，它们可以成群进行侦察，无人机群可以自主跟踪目标，以及视觉沉浸式指挥中心和先进的战争游戏模拟。 2024 年 11 月，解放军发布了一份科幻式的人工智能机器狗招标，这些机器狗将一起侦察威胁并清除爆炸危险。 Unitree 没有回应有关其 PLA 工作的询问。对过去两年发表的专利、招标和研究论文的审查显示，解放军及其附属实体如何寻求人工智能来改进军事规划，包括开发快速分析卫星和无人机拍摄的图像的技术。将人工智能系统集成到包括北方工业公司在内的军用车辆中的中国公司陆船信息技术公司的研究人员在二月份发布的一份宣传其服务的白皮书中表示，其基于华为芯片的技术可以快速识别卫星图像中的目标，同时与雷达和飞机协调执行操作。 […]

DeepSeek 和 Qwen 人工智能模型在加密货币交易挑战中碾压西方竞争对手

根据美国研究公司 Nof1 周五推出的加密投资项目 Alpha Arena 的最新更新，截至周一下午 2 点，DeepSeek 的 Chat V3.1 模型的初始资本从 10,000 美元增至 22,900 美元，自 10 月 18 日开始交易以来上涨了 126%。阿里巴巴集团控股公司开发的 Qwen 3 Max 涨幅高达 108%，账户价值翻倍至 20,850 美元。 Qwen 在 10 月 24 日至 26 日期间短暂超越 DeepSeek，但在周一失去了领先地位。阿里巴巴拥有《南华早报》。相比之下，OpenAI 的 GPT-5 是迄今为止表现最差的，损失了近 60% 的资本，仅剩约 4,000 美元。谷歌 DeepMind 的 Gemini 2.5 Pro 也出现了类似的 57% 的损失，而 xAI […]

这家初创公司希望引发美国 DeepSeek 时刻

于是乎 DeepSeek 一月份突然出现，围绕开源中国人工智能模型的势头不断增强。一些研究人员正在推动一种更加开放的人工智能构建方法，使模型制作能够在全球范围内进行分发。原始智力一家专注于去中心化人工智能的初创公司，目前正在训练一种名为 INTELLECT-3 的前沿大型语言模型，使用一种新型的分布式强化学习进行微调。该公司首席执行官 Vincent Weisser 表示，该模型将展示一种新方法，可以使用不同地点的一系列硬件来构建有竞争力的开放人工智能模型，而无需依赖大型科技公司。韦瑟表示，人工智能世界目前分为依赖封闭的美国模式和使用开放的中国产品的两派。 Prime Intellect 正在开发的技术通过让更多的人为自己构建和修改先进的人工智能来实现人工智能的民主化。改进人工智能模型不再只是增加训练数据和计算的问题。当今的前沿模型在预训练过程完成后使用强化学习进行改进。希望您的模型擅长数学、回答法律问题或玩数独吗？通过在可以衡量成功和失败的环境中练习来使其自我改进。 “这些强化学习环境现在是真正扩展能力的瓶颈，”Weisser 告诉我。 Prime Intellect 创建了一个框架，让任何人都可以创建针对特定任务定制的强化学习环境。该公司正在结合自己团队和社区创建的最佳环境来调整 INTELLECT-3。我尝试运行一个由 Prime Intellect 研究员 Will Brown 创建的解决 Wordle 谜题的环境，观看一个小模型解决 Wordle 谜题（说实话，它比我更有条理）。如果我是一名试图改进模型的人工智能研究人员，我会启动一堆 GPU 并一遍又一遍地练习模型，同时强化学习算法会修改其权重，从而将模型变成 Wordle 大师。

本土英雄：华为和DeepSeek如何帮助中国打破对美国筹码的依赖

当中国人工智能初创企业DeepSeek在8月下旬推出了一种最新的基础模式时，NVIDIA的投资者感到震惊。当市场观察家努力争夺这家两年历史的初创企业以与世界上最好的模型相抗衡的消息时，美国芯片巨头Slid的股票正在转向支持国内生产的筹码。除了他们的担忧外，DeepSeek并不孤单地努力在不依赖美国技术的情况下赋予中国的AI野心能力。上周，华为技术（在美国技术自给自足驱动器的最前沿的中国公司）展示了其上升芯片系列中的最新产品，并揭开了旨在在不使用Nvidia处理器的情况下提供世界一流计算能力的硬件。它标志着该公司第一次泄露了其芯片路线图的细节，因为它在2019年被美国黑名单列入了国家安全问题。随着对本土技术的信心，北京敦促该国的科技巨头停止购买为中国量身定制的Nvidia量的筹码，这些筹码旨在符合美国的出口限制。华为和DeepSeek一起出现了中国韧性的象征，展示了美国贸易遏制方式如何引发国内AI行业的创新浪潮，使北京在与华盛顿的技术竞争中取得了基础。在上海举行的年度华为连接活动上的AI标志。照片：路透社 Natixis Corporate and Investment Bank亚太地区董事兼高级经济学家Gary Ng说，随着美国限制作为推动因素，中国追求自给自足的因素，“ DeepSeek将寻找筹码的替代品”。 “作为国家冠军，华为将扮演重要角色。” 1758940482 #本土英雄华为和DeepSeek如何帮助中国打破对美国筹码的依赖 2025-09-27 02:00:00

DeepSeek的创建者，中国人的AI击倒了硅谷，揭示了他们的秘密|技术

一家小型且未知的中国公司DeepSeek彻底改变了生成人工智能行业（AI）。它的R1型号比最新版本的Chatgpt效果很好或更好，但是免费的和开源的。尽管在筹码出口上进行了禁运，但它还是在中国开发的，正如宣布的（后来被问及）的资源要少于竞争。 DeepSeek的团队今天在杂志上发表自然它描述了一篇文章，其中允许您提高该行业的进步。关键在于它对所谓的强化学习的承诺。能够从一系列用户说明中生成文本，图像，视频或音频的生成AI依赖于深度学习（深度学习）。这是AI领域中的一种策略，在过去十年中已经获得了相关性，它包括应用有关巨大数据库的算法来提取模式以做出预测或做出决定。也就是说，AI 学习数据。更多信息有几种开发自动学习的方法。 DePseek选择的增强学习技术类似于孩子学习视频游戏的方式。当他在虚拟世界周围移动角色时，他通过证明和错误来学习一些行动，例如采取硬币，给他更多的观点，而其他行为（例如被敌人攻击）减去了他们。继续隐喻，学习提示（给聊天机器人的订单是让孩子阅读游戏的说明，以学会主导它。监督的学习将是向合作伙伴的几百个政党展示模仿。最常用的技术是后者，有监督的学习：用算法处理数百万个文本，提出问题并手动选择良好的答案；回到训练他使用这些准则，正确地逐渐。在此过程之后，该机器准备识别哪个单词，短语或相位集更有可能追随用户引入的文本。 DeepSeek的科学家，没有技术巨头的资源，也没有限制购买国家的筹码，决定创新。他们专注于加强学习，这是以前从未做过的。作者在文章中写道：“我们证明，纯粹的增强学习技巧可以鼓励出色的语言模型（LLM）的推理技能，而无视介绍人类标记的推理药的必要性。” 卡内基·梅隆大学（美国匹兹堡）的教授兼自然语言模型专家达芙妮·伊波利托（Daphne Ippolito）观察到，“ DeepSeek团队可以鼓励LLMS学习推理，而不会接触到人类推理序列的例子。” 技术的混合物最初，科学家来自启动中国专注于容易建立数值目标或奖励的学科。该机器必须达到最大可能的分数，但没有告诉它。结果很好。 “该模型在数学，编程竞赛和STEM领域（科学，技术，工程和数学）等可验证的任务中达到了卓越的性能，超过了他们通过人类示范受到传统监督学习培训的同源物，” AI DeepSeek的科学家Wenfeng Liang说。尽管取得了良好的结果，但由于答案没有得到纠正，该模型偶尔会提供好奇的回答，例如在相同的英语和中文文本中混合，这是该系统优化的两种语言。但是，总的来说，它运行良好。 Liang及其同事说：“我们的假设是人类定义的模式可以限制模型的探索，而通过不限的学习训练可以更好地鼓励LLM中新的推理能力的出现。”人的干扰如何限制模型？ Ippolito说：“提示或LLM培训具有迹象，可以引入偏见，这阻止了模型发展自己的推理形式。” 除了语言混合物外，他们还意识到答案变得非常长，最多为10,000个字，这使用户很难继续使用。因此，研究人员决定将一些监督的学习引入鸡尾酒中，以在正确和可理解的回应之间取得平衡。在R1模型中实践的这两种方法的结合使他们能够达到数学和编程方面的领先表现。蒸馏模型和资源节省他们的方法使他们能够节省资源。 DeepSeek团队写道：“要使LLM在训练前阶段显示一些推理能力，需要大量计算机资源。” Liang和他的同伴表明，这些功能可以通过使用系统来改善几个示例，但设计精良，或者使用简约的提示。中国的另一个技术赌注是所谓的生成AI模型的蒸馏液（它们的使用），这使他们不必从头开始开发一种。这使他们“可以更大的能源访问强大的能源成本”。 DeepSeek团队认为，其对使用加强学习的证明可以“解锁LLM中更高水平的能力，从而为将来的更自主和适应性模型迈进了道路。”对于Ippolito而言，中国公司的工作提出了更多问题。 “什么使模型原因很好的问题是一个像技术一样哲学上的问题。当用户向AI问一个复杂问题时，用户会寻找什么样的答案？我们是否应该关心推理方式，如果他有正确的答案，那么推理的方式是无法理解的？” 1758148920 #DeepSeek的创建者中国人的AI击倒了硅谷揭示了他们的秘密技术 2025-09-17 15:01:00

中国政府要求使用华为芯片开发DeepSeek的新型AI模型“ DeepSeek -R2”，但它已经失败并延迟了释放-Gigazine

经过蒂姆·莱克曼（Tim Reckmann）中国AI初创公司DeepSeek于2025年1月发布了开源推理模型“ DeepSeek-R1”，该模型在几乎没有计算资源的情况下实现了高性能，并引起了很多关注。但是，由于中国政府要求将华为芯片用于开发AI模型，因此推迟了新的AI模型DeepSeek-R2的发布。 DeepSeek的下一个AI模型被中国筹码推迟了https://www.ft.com/content/eb984646-6320-4bfe-a78d-a1da2274b092 FT报告路透社https://www.reuters.com/world/china/deepseeks-launch-new-ai-model-delayed-by-huawei-chip-sissues-issues-ft-reports-ft-reports-2025-08-14/ 据报道，中国当局敦促DeepSeek在华为硬件上培训新模型 – 在多次失败之后，R2培训以切换回NVIDIA硬件，而Ascend GPUS handle推理|汤姆的硬件https://www.tomshardware.com/tech-industry/artificial-intelligence/deepseek-reportedly-urged-by-chinese-authorities-to-train-new-model-on-huawei-hardware-after-multiple-failures-r2-training-to-switch-back-to-nvidia-hardware-while-ascend-gpus-handle-inference 据说，DeepSeek-R1的培训成本约为OpenAI推理模型“ O1”的3％，而理论上的成本回报率每天最多达到545％。还值得注意的是，模型数据已公开可用，允许用户在服务器上或本地运行它。为什么DeepSeek大惊小怪，什么是惊人的？ -Gigazine 据报道，DeepSeek的下一代模型DeepSeek-R2将于2025年5月发布，但在撰写本文时尚未宣布，自5月底以来已经过去了两个多月。《金融时报》报道说，原因是由中国政府的干预引起的。熟悉该系列的三名目击者说，在DeepSeek成功地学习R1之后，中国政府敦促其使用基于华为的Ascend AI芯片的平台，而不是传统的NVIDIA硬件。 DeepSeek接受了中国政府的指示，并引入了华为芯片以开发R2，但很快就开始体验性能不稳定，芯片到芯片连接的延迟以及Ascend的软件平台“坎恩我面临着诸如局限性的问题。华为显然将工程师团队派往DeepSeek的数据中心以解决该问题，但是在Ascend平台上的培训从未成功。消息人士告诉《金融时报》，由于DeepSeek未能在华为芯片上发展，R2的发布被推迟了。经过卡尔·达姆布兰（Karl Dambran）最后，DeepSeek选择“使用Nvidia芯片来学习R2模型和华为芯片进行推断”。技术媒体汤姆（Tom）的硬件说：“这种混合的方法可以说是来自需求而不是偏爱的妥协。” 同时，由于中国缺乏NVIDIA芯片，许多DeepSeek客户还将将R2与华为硬件一起使用。考虑到这一点，确保新的AI模型在华为硬件上运行是有意义的。复制本文的标题和URL #中国政府要求使用华为芯片开发DeepSeek的新型AI模型 #DeepSeek #R2但它已经失败并延迟了释放Gigazine 1755239655 2025-08-15 04:15:00

Tag: DeepSeek