新年伊始,DeepSeek发布了一项新研究,提出了一种名为mHC(流形约束超连接)的新网络架构。这项研究旨在解决传统架构在大规模模型训练中的不稳定性问题,为下一代基础架构的演进提供了新的思路。

论文《mHC: Manifold-Constrained Hyper-Connections》由DeepSeek创始人兼CEO梁文锋等人共同撰写,解振达、韦毅轩和曹焕琪是核心贡献者。近年来,超连接技术通过拓宽神经网络的信息传输通道,提升了模型性能,但也带来了大规模训练中的不稳定性和高内存访问开销等问题。
DeepSeek的新论文针对这些问题提出了改进框架——mHC架构。这一架构类似于给超连接的信息通道加上一套“交通规则”,在保留性能优势的同时,恢复了信息原样传递的特性,使模型训练更加稳定且易于扩展。简单来说,如果将AI模型想象成一个很长的计算链条,传统的计算链条信息传递时容易堵塞,而超连接方法虽然加宽了管道,但水流过猛可能会损坏水管。mHC则相当于给水管加装了智能调节阀,确保水流稳定,运行更省资源。
DeepSeek表示,mHC为未来的研究开辟了多个前景广阔的路径,希望它能重新激发学界对宏观架构设计的兴趣。从行业角度来看,mHC可能让企业在训练更大规模的基础模型时减少硬件投入、缩短训练周期,从而降低大模型研发门槛。此外,训练稳定性和可扩展性的提升有助于大模型在更复杂场景中的应用,如多模态模型和工业级智能决策系统。
有行业人士认为,DeepSeek的研究是底层创新,结合此前积累,预测其有望在未来版本中做出重大更新。尽管2025年初以来,DeepSeek尚未正式推出R2或V4等重大版本,但在模型迭代与开源方面持续发力。例如,12月推出了DeepSeek-V3.2与V3.2-Special,11月底开源了数学推理模型DeepSeek-Math-V2,成为目前首个达到国际奥数金牌水平并开放使用的数学模型。
大爷因办喜事停药3天突发脑梗 迷信差点酿成大祸
近日,浙大邵逸夫医院接诊了一位特殊的患者,70多岁的张大爷因突发左侧肢体麻木被家属紧急送医,最终确诊为急性脑梗死。张大爷有多年房颤病史,一直规律服用利伐沙班以抑制血栓形成、预防脑梗。平时复查的各项指标控制良好
0评论2026-05-0612
父母卖车卖房支持吴宜泽追梦 00后首夺世锦赛冠军
北京时间今晨,2026年斯诺克世锦赛决赛中,22岁的中国选手吴宜泽以18比17险胜英格兰选手肖恩·墨菲,成为世锦赛历史上首位00后冠军。吴宜泽16岁时就远赴英国,与父亲挤在谢菲尔德一间简陋的公寓里同床而眠
0评论2026-05-0613
4人长期虚报差旅费套取资金80余万 职务侵占被判刑
四人利用出差住宿报销漏洞,长期套取事业单位资金80余万元。经四川省成都高新技术产业开发区检察院提起公诉,法院采纳检察机关指控事实、公诉意见及量刑建议,以职务侵占罪判处郭某、金某、黄某、张某有期徒刑一年三个月至十个月不等,并处罚金
0评论2026-05-0613
夜经济撑起五一假期消费半壁江山 夜间文旅消费集聚区迎高峰
中国移动梧桐大数据平台发布了“五一”假期消费出行数据。数据显示,今年“五一”假期前后正值全国多地首次集中实施中小学春假制度,形成了长达十几天的出游窗口期,居民出行半径显著扩大。长线游、夜经济和银发经济成为假期亮点
0评论2026-05-0613
最高法就“开门杀”等发布司法解释 明确责任界定与赔偿规则
最高人民法院发布了《关于审理道路交通事故损害赔偿案件适用法律若干问题的解释(二)》,该解释将于2026年6月30日起施行。这份解释共包含12条,从责任主体、责任认定、赔偿计算、程序规定等方面进行了详细规定
0评论2026-05-0613
“摩托之都”重庆背后的硬核底气 重庆凭什么把一辆摩托做到全球市场?
活力重庆,正在产业一线展现出越来越清晰的上升曲线。近日,“活力重庆”主题采访活动走进园区、港口和企业生产现场,近距离观察新重庆的产业脉动。无论是新质生产力对传统制造的重塑,还是内陆开放综合枢纽能力的持续释放,抑或科技创新对高质量发展的支撑...
0评论2026-05-0612