
梁文锋带领着 DeepSeek,还在继续搅动大模型行业。
继用 R1 模型炸场之后,1 月 28 日凌晨,除夕夜前一晚,DeepSeek 又开源了其多模态模型 Janus-Pro-7B,宣布在 GenEval 和 DPG-Bench 基准测试中击败了 DALL-E 3(来自 OpenAI)和 Stable Diffusion。
随后特朗普在会议上提到 DeepSeek 的出现为美国的企业敲响了警钟,"我们需要集中精力在竞争中获胜"。相隔一天,据外媒报道,多名美国官员称 DeepSeek 是"偷窃",正对其展开国家安全调查。
OpenAI 也适时发布声明称一直知道其他公司试图蒸馏美国领先公司的模型,如今"采取反制措施保护我们的知识产权",并表示将和美国政府紧密合作保护最先进模型免受窃取。
或许梁文锋自己都想不到,意外火出海的 DeepSeek,刺痛着更多人的神经。
而一年前,DeepSeek V2 模型发布时,便开始被冠上 AI 界拼多多的称号。
反卷大厂的梁文锋,早已在 AI 领域复制过黄峥式"后来居上"的故事,并在国内掀起打到骨折的大模型价格战。
当时,在接受 36 氪采访中,梁文锋表示,"我们不是有意成为一条鲶鱼,只是不小心成了一条鲶鱼。"
如果说梁文锋的鲶鱼效应,在于证明了用低成本也能高效率训练出 AI 大模型,无意卷到了 BAT。去年一年,黄仁勋则在制造另一种鲶鱼效应,即以每 6 个月为周期,更新更高性能的芯片,使得害怕抢不到最新 GPU 而掉队的巨头们,疯抢英伟达 GPU,微软、谷歌、Meta、马斯克,都被拽进了这场 GPU 大作战游戏里。
一年后,DeepSeek 成为硅谷眼中"神秘的东方力量",被 Scale AI 创始人亚历山大 · 王(Alexandr Wang)评价道,"过去十年来,美国可能一直在人工智能竞赛中领先于中国,但 DeepSeek 的 AI 大模型发布可能会‘改变一切’。"
起因是 DeepSeek 在年前发布了新的开源模型 DeepSeek R1,不仅性能追上了 OpenAI o1 完整版,用 550 万美元的训练开销做到硅谷投入上亿美元的效果。
在这场热潮前,大模型的主流叙事是英伟达高端 CPU "一芯难求",而如今,黄仁勋的销冠神话,迎来了梁文锋的正面冲击。
梁文锋所带领的 DeepSeek,让美国华尔街开始重新审视,在这场大模型生存战里,英伟达芯片和高端算力的需求是否存在泡沫。这样的担忧,使得英伟达在 1 月 27 日一夜蒸发近 6000 亿美元市值。
而这一切,在梁文锋看来,只是"按照自己的步调来做事",然后核算成本定价。
梁文锋并非有意成为鲶鱼,但正如硅谷著名风投家 Marc Andreessen 的评价:"作为开源项目,这是对世界的一份深远馈赠 。"他们节约了大量的成本,也让很多高薪的硅谷大佬,和享受这个行业巨大泡沫的公司,颜面扫地。
1 月 28 日,OpenAI CEO 奥特曼终于回应了 DeepSeek,他夸赞 DeepSeek 让人印象深刻,特别在于提供模型的性价比上。随后则话锋一转,强调 OpenAI 将提供更好的模型,并暂停一些发布。此前,奥特曼在 X 上迅速发布首个智能体 Operator,还开始剧透起了即将上线的 o3-mini。网友戏称," DeepSeek 逼出了奥特曼的新大招。"
同时,根据外媒爆料,DeepSeek 的发布引发了 Meta 的紧急加班,工程师疯狂拆解代码,员工爆出其高管的薪资竟比训练整个 V3 模型的成本还高。
2025 年,不想当鲶鱼的梁文锋,结结实实搅动了一池春水。
"大部分中国公司习惯 follow,而不是创新。"而在采访中,对于上一次 DeepSeek 引发大模型价格战的热议,梁文锋表示,DeepSeek 正以创新贡献者的身份,参与到这场此前由美国主导的科技创新游戏里。
这位 80 后 AI 创业者,组织起一些 Top 高校的应届毕业生、没毕业的博四、博五实习生,还有一些毕业才几年的年轻人,他形容团队成员们,"很多人对做研究的渴望,远超对钱的在意。"
梁文锋将 DeepSeek 定义为"硬核创新",做最难的事,似乎成为他所带领的 DeepSeek 的一致认知。
在鲶鱼的外观之下,DeepSeek 在梁文锋眼中,内里则满是技术理想主义的叙事。
此前,梁文锋曾断言,"中国必然需要有人站到技术的前沿"。而这一次,DeepSeek 先踏上浪头,但无论是鲶鱼梁文锋,还是"技术理想主义者"梁文锋,要回答的问题还很多、很多。
一
这次 DeepSeek 的出圈,总少不了与 OpenAI 的对比。更有网友调侃," DeepSeek 活成了真 OpenAI(开放模型),而 OpenAI 活成了 close AI(封闭模型)"。
实际上,奥特曼和梁文锋,都是典型的学霸型创业者。
前者 18 岁考上斯坦福大学计算机系,大二便辍学创业;后者毕业于浙江大学,2015 年成立幻方量化,在采访中梁文锋提到,2022 年底 ChatGPT 风靡时,他们就开始动手招聘了。2023 年 7 月,梁文锋成立了 DeepSeek。
梁文锋并不讳言 OpenAI 对他的启发性,甚至,他在不少地方都和奥特曼展现出了惊人的相似。
出售一手创办的初创公司 Loopt 后,奥特曼创立了风投基金 Hydrazine Capital。2015 年,30 岁的奥特曼成为知名孵化器 YC 的总裁,但在 AGI(通用人工智能)不被看好,融资艰难的 2015 年,认定深度学习前景无量的奥特曼,却和特斯拉创始人马斯克共同创立了 OpenAI。
梁文锋曾是币安的早期成员,并一手创办了幻方量化,作为同样有着投资经历的创业者,梁文锋入局的 2023 年,大厂探入,许多创业型公司放弃了只专注通用型大模型的大方向,梁文锋却坚定 DeepSeek 要专注基础模型的研究和突破。
同样,在早期,兜里没钱的奥特曼,会将"一起构建 AGI "写在招聘信息里。这个当时可怕而遥远的目标,让 OpenAI 吸引到了一大批年轻的 AGI 信仰者。
"年轻、有潜力",成为奥特曼和梁文锋共同的选人标准。
在梁文锋看来,如果追求短期目标,找现成有经验的人是对的。但如果看长远,经验就没那么重要,基础能力、创造性、热爱等更重要。也正是因此,这个没有知名技术大牛,不在播客分享创业感悟的纯本土创业团队,成了最快追上 OpenAI 的队伍。
甚至,在最开始,如同成立之初以非营利为目的的 OpenAI,商业化也并未写入 DeepSeek 的 to do list。
在这点上,奥特曼与梁文锋同样有着一致的想法。
" OpenAI 早期投资人投钱时,想的一定不是我要拿回多少回报,而是真的想做这个事。"在采访中,梁文锋面对大模型烧钱的相关提问表示,如果一定要找一个商业上的理由,(一个商业公司去做一种无限投入的研究性探索),可能是找不到的,因为划不来。从商业角度来讲,基础研究投入回报比很低。
但"一件激动人心的事,或许不能单纯用钱衡量。就像家里买钢琴,一来买得起,二来是因为有一群急于在上面弹奏乐曲的人。"
如今,梁文锋的 AGI 梦想已经震动了整个硅谷。
不过,曾经以非营利为目的的 OpenAI,希望对抗大公司的 AI 霸权,奥特曼随后引入微软的巨额投资。在奥特曼的主导下,OpenAI 将成为一家真正的营利性企业。而后来者的梁文锋,却始终坚持模型开源,并希望更多人,哪怕一个小 APP 都可以低成本用上大模型,而不是技术只掌握在一部分人和公司手中,形成垄断。
对创立初便以 AGI 普惠全人类为使命的 OpenAI 来说,奥特曼曾射出这颗子弹,如今时隔 10 年,正中自己的眉心。
从这一点来看,相比起做一条鲶鱼,技术理想主义者的标签,似乎更适合梁文锋。
二
但不想成为鲶鱼的理想主义者梁文锋,却意外两次"卷到了"所有人。
第一次,DeepSeek 成了引发中国大模型价格战的源头。
在被 AI 连续轰炸的 2024 年 5 月,DeepSeek 声名鹊起。起因是它们发布的一款名为 DeepSeek V2 的开源模型,堪称价格屠夫:推理成本被降到每百万 token 仅 1 块钱,约等于 Llama3 70B 的七分之一,GPT-4 Turbo 的七十分之一。
DeepSeek 凭借超绝性价比成了" AI 界拼多多",BAT 们也被卷得坐不住,纷纷降价。中国大模型价格战由此一触即发。
首先智谱 AI 跟进,将入门级产品降价,随后字节将旗舰模型降到和 DeepSeek 同价,接着阿里、腾讯等随即跟上。
尽管,除了同为 DeepSeek 创始人的徐进毕业于竺可桢学院,是黄峥的学弟,DeepSeek 与拼多多并无更多交集。
一心想着"让 AI 变成人人可以用得起的东西"的梁文锋,甚至诧异于大厂的跟进动作,毕竟"大厂的模型成本比我们高很多,所以我们没想到会有人亏钱做这件事。"
而第二次,DeepSeek 引发了硅谷大地震。
更低成本、不输 OpenAI 成熟模型的效率,梁文锋带领下的 DeepSeek 再次坐稳了" AI 界拼多多"的宝座,并且成功出海。
目前,DeepSeek 官方尚未公布训练推理模型 R1 的完整成本,但官方公布了其 API 定价,R1 每百万输入 tokens 在 1 元~4 元人民币,每百万输出 tokens 为 16 元人民币。作为对比,OpenAI o1 的运行成本约为前者的 30 倍。
换言之,梁文锋以不到十分之一的成本,做出了硅谷需要上亿投入才能烧出的大模型。
硅谷的震动几乎是必然的。除了被拿来全面对标的 OpenAI,首当其冲的是 Meta。以"大模型开源之王"为 title 的 Meta,内部员工匿名发布消息称,Meta 的生成式 AI 部门正因 DeepSeek 处于恐慌中,甚至爆料称尚未发布的新一代开源模型 Llama 4,在基准测试中已经落后于 DeepSeek。
a16z 合伙人、AI 大模型 Mistral 董事会成员 Anjney Midha 更是发文说道,从斯坦福到麻省理工,DeepSeek R1 几乎一夜之间就成了美国顶尖大学研究人员的首选模型。
与此同时,梁文锋带领的 DeepSeek 正撬起 OpenAI 的墙角。
企业级 AI 代理开发商 SuperFocus 的联合创始人表示,相比起正在使用的 OpenAI 旗舰模型 GPT-4,DeepSeek 提供的支持不仅相似,甚至更好。" SuperFocus 可能会在未来几周转向 DeepSeek,因为 DeepSeek 可以免费下载、在自家服务器上存储和运行,并将增加销售产品的利润率。"比 OpenAI 便宜 30 倍的 API 价格,让梁文锋一不小心就出了海。
同时,作为纯本土团队的 DeepSeek 火了,梁文锋领军年轻中国团队,无海外背景却硬刚硅谷巨头的叙事成了流量密码。
三
爆火之下,梁文锋还需要回答更多的新问题。
字母榜尝试让 DeepSeek 作为一名记者,对梁文锋提一个问题,这是 DeepSeek 的回答:
" DeepSeek 宣称其模型训练成本仅为行业 1/10,但有开发者指出,这可能是通过大幅缩减模型参数规模或依赖幻方早期囤积的廉价算力实现的,而非真正的技术突破。您是否承认这种‘成本优势’本质是金融资源套利,而非算法创新?"
令人惊讶的是,这个由 DeepSeek 问出的问题,几乎可以概括如今围绕着 DeepSeek 的大部分争议。
正如 ChatGPT 横空出世让 OpenAI 成为当之无愧的 AI 头部企业,英伟达的 GPU 凭借高性能成为算力基础,让黄仁勋享尽高光,现在,DeepSeek 的 R1 模型,却只能证明梁文锋有能力做出一个和 OpenAI 最新模型相差无几的模型。
在采访中,梁文锋不止一次地提到希望打破硅谷的科技垄断,希望站在"技术的前沿",但做一个和 OpenAI 最新模型相差无几的模型,还远谈不上真正的超越,R1 仍然是对 OpenAI 的模仿和跟随。
DeepSeek 爆火之下,冲浪达人马斯克一直罕见地并未发表评论,却在最近点赞了一则推文。
推文中提到了 DeepSeek 大量依赖模型蒸馏技术,需要借助 ChatGPT-4o 和 o1 才能完成训练。
尽管模型蒸馏是一项常见的技术手段,能够将 OpenAI 中的大量数据迅速提炼重点并快速理解和应用,但这种模式只能让 DeepSeek 接近 OpenAI,而难以真正超越 OpenAI。
更不必说,尽管宣扬自己是技术理想主义,梁文锋的背后是量化私募巨头幻方,是 BAT 之外唯一能够储备万张 A100 芯片的公司。据"财经十一人"报道,2023 年时国内拥有超过 1 万枚 GPU 的企业不超过 5 家,其中便包括幻方。
而能够用十分之一的成本做出同等规模的大模型,也正是基于梁文锋的实验室已经投入了数亿美元做前期研究,并拥有大规模的芯片。想成为 AI 界拼多多,普通 AI 创业团队几乎难以复现梁文锋的路径。
图注:X 上有关 deepseek 的 meme 图,图源:X 平台
需要肯定的是,站在 OpenAI 这个巨人的肩上,梁文锋带领 DeepSeek 实现了一场颇为惊艳的突围,但什么时候能够赶在 OpenAI 前面推出未来一代模型,如 GPT-5,那时才是梁文锋技术理想的 AHA 时刻。
彼时,没有 OpenAI 做坐标,梁文锋还能否继续靠低成本策略做出性能强大的大模型,才是等待 DeepSeek 的更大考验。
梁文锋曾这样介绍自己,在广东一个五线城市长大,父亲是小学老师。"九十年代,广东赚钱机会很多,当时有不少家长到我家里来,家长觉得读书没用。但现在回去看,观念都变了。因为钱不好赚了,连开出租车的机会可能都没了。一代人的时间就变了。"
梁文锋充满信心,在他看来,以后的硬核创新会越来越多。"我们只是还需要一堆事实和一个过程。"
如今,外界都在期待梁文锋和 DeepSeek 会是那个过程之一。