如何赶超美国?这是DeepSeek震惊世界的秘诀(组图)
这家AI初创公司通过一支缺乏经验的工程师团队和美国出口管制中的一个缺陷,开发出了一个顶级AI系统。
把一群年轻的中国工程师组成团队,由一位不看重经验的老板来领导。再加上一些聪明的编程捷径,以及美国规定中的一个使他们能够获得先进制程芯片的缺陷。
这就是中国DeepSeek的人工智能(AI)程序得以震惊世界的秘诀。
传统观念认为,开发领先的AI需要使用大量昂贵的尖端计算机芯片,而中国企业将难以参与这场竞争,因为它们无法获得这些尖端芯片。DeepSeek以其足智多谋颠覆了这种预期,导致华尔街损失1万亿美元,并促使硅谷重新审视研发方式。
美国总统唐纳德·特朗普(Donald Trump)表示,这家中国公司也给华盛顿敲响了警钟。在未来几个月,特朗普政府将就如何处置乔·拜登(Joe Biden)执政时期限制中国获得最好AI芯片的政策做出决定。
DeepSeek的老板梁文锋把公司设在科技中心城市杭州,科技巨头阿里巴巴(Alibaba)总部也在杭州。DeepSeek是从梁文锋联合创立的一家对冲基金发展起来的,该基金利用AI在金融市场里寻找有利可图的交易。
梁文锋在2023年接受一家中国媒体采访时曾表示,公司的大多数技术岗位都是由应届毕业生或只有一两年工作经验的人来担任。
他说,经验可能是一种障碍。梁文锋表示,“做一件事,有经验的人会不假思索告诉你,应该这样做,但没有经验的人,会反复摸索、很认真去想应该怎么做,然后找到一个符合当前实际情况的解决办法。”
他们的成果现在正被硅谷最优秀、最聪明的一群人研究着。
直到最近,OpenAI的ChatGPT等开创性AI程序的底层大模型还是通过大量文本、图像和其他数据训练出来的。他们采用专门的算法来寻找聊天机器人可以用来进行对话的模式。
DeepSeek的策略则是利用自己的一些创新以及同样受到限制的中国AI公司常用的技术,来减少训练模型所需的数据处理。
智库兰德公司(Rand)的AI研究员莱纳特·海姆(Lennart Heim)表示,想象一下早期版本的ChatGPT就像一个读过图书馆里所有书籍的图书管理员。当被问到一个问题时,ChatGPT会根据读过的许多书给出答案。
这个过程既耗时又昂贵。阅读这些书籍需要很多芯片,会耗费大量电力。
DeepSeek采取了另一种方法。它的图书管理员并没有读过所有的书,而是在被问到一个问题后,被训练成能够找到合适的书来回答问题。
这涉及另一种技术,称为“混合专家”。DeepSeek和其他一些AI开发者并没有试图找到一个能够准确回答任何主题方面问题的图书管理员,他们所做的类似于将问题委托给特定领域(如小说、期刊和烹饪)的一系列专家。每位专家需要的培训更少,从而减轻了对芯片一次性完成所有任务的需求。
DeepSeek的方法在提出问题之前需要较少的时间和算力,但在回答时需要较多的时间和算力。海姆说,综合考虑所有因素,DeepSeek的捷径可以帮助它以大大低于竞争模型的成本训练AI。
“通过工程应对限制,”英特尔(Intel)前首席执行官帕特·基辛格(Pat Gelsinger)在X上写道。“中国工程师的资源有限,他们必须找到创造性的解决方案。”
独创性只是DeepSeek成功的一部分。
另一部分是美国出口管制的出台过程经历起伏,给了DeepSeek购买强大美国芯片的窗口期。
拜登政府在2022年对出口到中国的芯片实施了管制。想要向中国销售的美国公司首先需要限制一种被称为互连带宽的芯片性能,这指的是数据传输的速度。
为应对这一政策,全球领先的AI芯片设计公司英伟达(Nvidia)为中国设计了一款符合这一参数的新产品,但通过在其他方面保持高性能来弥补这一缺陷。一些分析师表示,这款芯片的性能几乎与英伟达当时最好的芯片一样强大。
美国官员公开和私下表达了不满,认为虽然英伟达没有违反上述法规,但违背了这一法规的精神。拜登政府的一位前高级官员表示,政府曾希望行业领袖能够合作,为快速变化的技术设计有效的出口管制。
英伟达一位发言人周一表示,“DeepSeek是一项出色的AI进步”,它展示了一种创新的AI技术,同时使用了“完全符合出口管制”的算力。
在最初的管制实施一年后,美国政府收紧了规定。尽管如此,这已为DeepSeek购买英伟达强大的中国市场芯片H800留下了大约一年的窗口期。DeepSeek在去年12月发表的一篇研究论文中表示,该公司使用了2,048块此类芯片来训练其一个AI模型。
自2023年相关规定修订以来,英伟达为中国设计了一款符合出口管制的新芯片,其性能远不如H800。
一些美国AI行业领袖怀疑DeepSeek并未透露其所有的秘密。他们表示,中国研究人员可能在美国实施限制之前就囤积了尖端的英伟达芯片,或者使用了变通方法,例如从美国和中国以外的国家和地区获得由英伟达高端芯片提供支持的算力。拜登政府在任内最后几天实施了新规来解决这些漏洞。
DeepSeek没有回应置评请求。