分享好友 资讯首页 资讯分类 切换频道

工程院院士与DeepSeek过了一招 究竟是怎么过招的?

2025-03-03 10:48100鼎巢网上观新闻
 【工程院院士与DeepSeek过了一招】近日,DeepSeek的出现引发了全球科技领域的广泛关注和深入讨论。中国科协会刊《科技导报》2025年第3期刊发了中国计算机学会原理事长李国杰院士的文章《DeepSeek引发的AI发展路径思考》,探讨了DeepSeek背后所蕴含的AI发展路径问题。

工程院院士与DeepSeek过了一招
工程院院士与DeepSeek过了一招

李国杰是中国工程院院士、发展中国家科学院(TWAS)院士,研究方向涵盖计算机体系结构、并行算法、人工智能等多个领域。

DeepSeek的横空出世是人工智能发展史上的标志性事件。短短7天内,用户增长超过1亿,打破了用户增长速度的世界纪录。与此同时,英伟达股价单日暴跌17%,市值缩水5890亿美元,创下美国上市公司单日最大损失纪录。这表明,高算力和高投入不再是发展人工智能的唯一途径,集成电路制程优势也不再等于人工智能技术霸权。DeepSeek引领行业进入以算法和模型架构优化为主的新时期,同时高度重视数据质量和规模,并理性提高算力。此外,DeepSeek标志着中国科技公司从“追赶者”变为“规则改写者”,在全球人工智能领域展现出颠覆性创新。

全球人工智能龙头企业纷纷拥抱DeepSeek,微软最早宣布将其R1模型添加到Azure AI Foundry,亚马逊云科技(AWS)、英伟达、超威半导体(AMD)等也相继部署DeepSeek V3和R1模型。上亿用户和众多大公司根据性价比和亲身体验主动融入DeepSeek生态。DeepSeek推出的高效率、低成本推理模型和开源商业模式,引领了人工智能行业新潮流。

V3和R1模型受欢迎的原因在于其在模型算法和系统软件层次的重大创新。V3模型参数量高达6710亿,但采用混合专家模型(MoE)架构后,每次调用仅激活约370亿个参数,显著降低了训练计算成本。改进的多头潜在注意力机制(MLA)减少了键值缓存开销,将显存占用降至其他大模型的5%~13%,提升了运行效率。R1模型摒弃传统监督微调(SFT),提出群组相对策略优化(GRPO),通过强化学习激发推理能力,简化了训练流程。这些发明虽非首次提出,但DeepSeek通过努力将技术做到极致,在前人成果基础上登上新的技术高峰。

第3波人工智能兴起后,美国政府、AI龙头企业和投资界认为高算力是发展人工智能的关键。特朗普签署法案启动星际之门计划,投资5000亿美元打造基础设施。然而,DeepSeek的成功揭示了真相,即推理模型开发比想象中简单,各行各业都能参与。初生牛犊不怕虎的中国科技工作者戳破了纸老虎,展示了其实力。

2020年,OpenAI发表论文提出规模法则,认为增加模型规模、数据量和计算资源可以显著提升性能。但规模法则并非科学定律,而是经验归纳。近几年大模型训练效果表明,要获得线性增长需高指数性增加投入,这种模式难以持久。理查德·萨顿指出,虽然规模法则有效,但它不是解决所有问题的万能钥匙,AI系统还需具备持续学习、适应环境等能力。

DeepSeek的出现迫使AI界重新思考技术路线:是继续追求高算力还是在算法优化上下功夫?DeepSeek标志着从外延式发展阶段转向集约化系统优化阶段。尽管成功并未否定算力的重要性,但绿色发展和降低能耗成为重要目标。

通用人工智能是一个模糊概念,OpenAI追求的是多个领域处理复杂问题的能力。莫拉维克悖论指出,复杂问题易解而简单问题难解。因此,学术界更关注智能系统的持续学习和自我改进能力。实现通用智能是渐进过程,不会因某项技术突然到来。

DeepSeek和OpenAI都以通用人工智能为目标,但路径不同。OpenAI通过扩大模型规模希望先做出通用基础模型再蒸馏出垂直模型。DeepSeek则走“由专到通”的道路,通过模型算法和工程优化探索受限资源下的通用智能。未来可能是通专融合,形成智能时代产业新生态。

科技界公认图灵是人工智能奠基人,他提出了计算模拟人类智能的假说。迄今为止,人工智能成果离不开计算,但高算力是否本质需求值得深思。人脑高效低功耗是因为分布式模拟计算。深度学习奠基人辛顿提出“凡人计算”,采用与人脑相同的存算一体模拟计算方式,追求高算效和高能效,这是正确方向。

斯坦福大学华裔科学家团队基于阿里通义千问模型,结合谷歌AI推理模型Gemini 2.0 Flash Thinking Experimental,使用16个英伟达H100 GPU进行了26分钟训练,以不到50美元费用成功训练出s1模型,性能超越高端模型。低成本模型显示出巨大潜力。

过去几年,开源大模型性能始终落后于闭源大模型,但DeepSeek改变了这一局面,增强了开源社区信心。杨立昆认为开源模型正在超越闭源模型,改变发展模式比单项技术突破更重要。DeepSeek彻底开源模式破解了企业数据安全难题,真正实现了技术民主化。

长期以来,美国AI龙头公司夸大开源AI的安全风险,抑制开源AI发展。事实上,开源模型对全球AI供应链至关重要,尤其是发展中国家。若美国继续设置障碍,中国有望在开源AI全球供应链中占据核心地位。真正的AI竞争不仅是技术和模型的竞争,更是生态系统、商业模式和价值观的竞争。开源战略将证明谁拥抱开源,谁就能赢得未来。

有人认为ChatGPT是0到1的突破,而DeepSeek只是1到N的扩展,但这不符合人工智能发展历史。中国企业在应用创新和商业模式创新方面表现出色,但原创能力逐渐增强。DeepSeek可能标志着中国AI产业从“技术跟跑”向“技术并跑和领跑”迈进。

尽管中国在人工智能基础研究和核心技术上仍与美国有差距,但在论文发表总数和专利授权数量上超过美国。近年来中国进步迅速,根据统计,中国作者在过去四年增长了8倍。人工智能产业具有不对称性,一个小企业可以挑战市值上万亿的龙头企业。中国已有52家人工智能独角兽企业,占全球18%。这表明中国已有一批创新型小企业进入世界前列。

DeepSeek的成功说明算法优化和系统级工程优化不可或缺,优秀工程师发挥着重要作用。良好的工程教育体系和庞大的工程师队伍是中国的优势。年轻一代正成为科研主力,有信心在人工智能研究和应用上走在前面。

实现人工智能自立自强不仅靠国家规划和资金支持,更要做好人才使用培养和产业生态构建。DeepSeek创始人梁文锋强调自信,选择初出茅庐的年轻人,拒绝经验丰富的人才。这种用人理念为公司带来创新动力,对传统教育和聘用模式提出警示。

构建自主可控的产业生态是最困难的任务。英伟达的CUDA软件生态是其护城河,DeepSeek冲击了这一生态但未完全绕过。长远来看,需要开发一套自主可控的AI软件工具系统,重构AI软件生态。这需要周密规划和长期努力,相关部门应组织全国力量完成这一任务。

资金投入虽非决定因素,但中国投资市场规模急剧萎缩值得关注。2023年美国AI投资达到672亿美元,是中国的8.7倍。风险投资和私募基金对科创产业极为重要,中美科创市场曾并驾齐驱,但2023年中国投资额仅相当于美国的8%。政府和资本界需合力构建健康的科创金融生态,为创新提供动力。

产业生态形成需市场牵引,国家应通过政策引导推广AI应用,增强国产硬件和软件市场占有率。重视芯片设计和大模型开源战略,争取中国在全球人工智能开源系统中的主导作用。通过算法和软件协同创新,充分发挥硬件性能,力争中国人工智能科研和应用走在世界前列。

收藏 0
打赏 0
阿尔巴尼亚任命AI出任政府部长 打击腐败新举措
阿尔巴尼亚总理拉马当地时间11日宣布,任命人工智能“迪耶拉”为该国政府部长,负责监督公共招标。拉马表示,“迪耶拉”将确保所有与公共招标有关的决定完全杜绝腐败,并使招标过程中的所有公共支出透明

0评论2025-09-1314

白俄罗斯:波兰升级局势 欧盟埋单 波兰抬高筹码
当地时间12日,俄罗斯驻波兰临时代办安德烈·奥尔达什在与“今日俄罗斯”电视台连线时表示,波兰近期采取的行动旨在在北约和欧盟框架内为自己争取政治或经济优惠。他认为,波兰当局最近几天、几小时内在国际舞台上采取的所有行动主要是为了抬高筹码

0评论2025-09-1313

美方将与台湾达成一项“重大协议” 关税谈判引关注
据台湾周刊王网站报道,美国商务部长卢特尼克近日在接受美国消费者新闻与商业频道专访时透露,美方即将与台湾地区达成一项“重大协议”,引起广泛关注。台湾正积极与美方谈判,争取调降目前高达20%的对等关税,以减轻出口产品的重税压力

0评论2025-09-1313

在美被捕韩籍员工乘包机返回韩国 政府企业人士陪同
在佐治亚州被美国移民执法人员抓捕的300多名韩国企业韩籍员工于9月12日下午乘包机抵达韩国仁川国际机场

0评论2025-09-1312

中国航母在有关海域活动完全合法 符合国内外法律
外交部发言人林剑在例行记者会上表示,中国海军日前发布了关于第三艘航空母舰福建舰通过台湾海峡赴南海相关海域开展科研试验和训练任务的信息。他指出,这次跨区试验训练是航母建造过程中的正常安排,并不针对任何特定目标

0评论2025-09-1313

外交部回应台外事官员窜访欧洲 坚决反对任何形式官方交往
在9月12日的外交部例行记者会上,发言人林剑就台湾外事部门负责人访问欧洲一事作出回应。他强调,台湾是中国的一个省,提到的这个人只是中国的一个地方外事官员。林剑表示,世界上只有一个中国,台湾是中国领土不可分割的一部分

0评论2025-09-1313