首頁(yè)|必讀|視頻|專訪|運(yùn)營(yíng)|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車(chē)|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁(yè) >> 人工智能 >> 正文

DeepSeek如何彎道大超車(chē):震撼硅谷巨頭 擊潰出口管制

2025年1月27日 08:41  新浪科技  

“當(dāng)我們所有人都在過(guò)圣誕的時(shí)候,一個(gè)中國(guó)實(shí)驗(yàn)室卻發(fā)布了震撼世界的AI模型。這顯然具有象征意義。長(zhǎng)期以來(lái),美國(guó)都在AI競(jìng)爭(zhēng)中處于全球領(lǐng)先地位,但DeepSeek的最新模型卻在改變這一格局! Scale AI的創(chuàng)始人兼CEO亞歷山大·王(Alexandr Wang)在接受美國(guó)媒體采訪時(shí)這樣感慨。

短短半個(gè)月時(shí)間,一款中國(guó)實(shí)驗(yàn)室發(fā)布的AI模型就用令人難以置信的實(shí)力數(shù)據(jù),震撼了整個(gè)硅谷AI領(lǐng)域。從科技巨頭到AI新貴再到技術(shù)專家,幾乎所有人都感受到了來(lái)自中國(guó)AI行業(yè)的強(qiáng)烈沖擊。更令人震驚的是,中國(guó)AI行業(yè)在遭受出口管制和算力匱乏情況下,實(shí)現(xiàn)了彎道超車(chē)。

橫空出世空降登頂

這個(gè)實(shí)驗(yàn)室就是來(lái)自中國(guó)的DeepSeek,2023年剛剛創(chuàng)建。他們?cè)谌ツ昴甑装l(fā)布了一個(gè)免費(fèi)開(kāi)源的大語(yǔ)言模型。根據(jù)該公司發(fā)表的論文,DeepSeek-R1在多個(gè)數(shù)學(xué)和推理基準(zhǔn)測(cè)試中超越了行業(yè)領(lǐng)先的OpenAI o1等模型,更在性能、成本、開(kāi)放性等指標(biāo)方面壓倒了美國(guó)AI巨頭。

科技行業(yè)需要用數(shù)據(jù)說(shuō)話。在一系列第三方基準(zhǔn)測(cè)試中,DeepSeek的模型在從復(fù)雜問(wèn)題解決到數(shù)學(xué)和編程等多個(gè)領(lǐng)域的準(zhǔn)確性上,超越了Meta的Llama 3.1、OpenAI的GPT-4o以及Anthropic的Claude Sonnet 3.5。

就在上周,DeepSeek又發(fā)布了推理模型R1,同樣在諸多第三方測(cè)試中超越了OpenAI最新的o1。在AIME 2024數(shù)學(xué)基準(zhǔn)測(cè)試中,DeepSeek R1取得了79.8%的成功率,超過(guò)了OpenAI的o1推理模型。在標(biāo)準(zhǔn)化編碼測(cè)試中,它展示了“專家級(jí)”的表現(xiàn),在Codeforces上獲得了2,029的Elo評(píng)分,超過(guò)了96.3%的人類競(jìng)爭(zhēng)對(duì)手。

Scale AI則使用了“人類最后考試”(Humanity’s Last Exam)來(lái)測(cè)試AI大模型,它采用來(lái)自數(shù)學(xué)、物理、生物、化學(xué)教授提供的“最難問(wèn)題”,涉及最新的研究成果。在測(cè)試了所有最新的AI模型后,亞歷山大·王不得不贊嘆,DeepSeek的最新模型“實(shí)際上是表現(xiàn)最出色的,或者至少與o1等最好的美國(guó)模型不相上下”。

毫不夸張地說(shuō),DeepSeek在美國(guó)AI行業(yè)引發(fā)了一場(chǎng)地震,更引發(fā)了媒體的爭(zhēng)相報(bào)道。幾乎所有的主流媒體和科技媒體,都報(bào)道了中國(guó)AI模型超過(guò)美國(guó)這一爆炸新聞。短短幾天時(shí)間,DeepSeek就已經(jīng)成為蘋(píng)果應(yīng)用商店排名第一的免費(fèi)應(yīng)用,力壓OpenAI的ChatGPT。

性能成本震撼巨頭

實(shí)打?qū)嵉臏y(cè)試對(duì)比結(jié)果,不得不服。幾乎所有的AI巨頭、風(fēng)投和技術(shù)人員都只能承認(rèn),在大模型這個(gè)領(lǐng)域,DeepSeek至少已經(jīng)可以和OpenAI平起平坐,中國(guó)已經(jīng)追上了美國(guó)。

微軟首席執(zhí)行官薩蒂亞·納德拉(Satya Nadella)在世界經(jīng)濟(jì)論壇上談到DeepSeek時(shí)表示:“DeepSeek的新模型令人印象深刻,他們不僅有效地構(gòu)建了一個(gè)開(kāi)源模型,能夠在推理計(jì)算時(shí)高效運(yùn)行,而且在計(jì)算效率方面表現(xiàn)出色。我們必須非常非常認(rèn)真地對(duì)待中國(guó)的AI進(jìn)步!

中國(guó)AI不僅是性能卓越,更是經(jīng)濟(jì)實(shí)惠。讓硅谷諸多AI巨頭感到震撼和汗顏的是DeepSeek的低廉成本。R1模型的查詢成本僅為每百萬(wàn)個(gè)token 0.14美元,而OpenAI的成本為7.50美元,使其成本降低了98%。

真的是小米加步槍,DeepSeek僅僅用了兩個(gè)月時(shí)間,耗費(fèi)了不到600萬(wàn)美元就打造了大語(yǔ)言模型R1,而且他們用的還是性能較弱的英偉達(dá)H800芯片。這意味著什么?打個(gè)比方,中國(guó)AI公司居然開(kāi)著普通轎車(chē),就實(shí)現(xiàn)了彎道超車(chē),在競(jìng)賽中超越了硅谷巨頭們的超級(jí)跑車(chē)。

除了訓(xùn)練成本低廉,DeepSeek的團(tuán)隊(duì)組成也與硅谷諸多AI巨頭大相徑庭。DeepSeek創(chuàng)始人梁文峰在組建研究團(tuán)隊(duì)時(shí),并未尋找經(jīng)驗(yàn)豐富的資深軟件工程師,而是專注于來(lái)自北大、清華等頂級(jí)高校的博士生。許多人曾在頂級(jí)學(xué)術(shù)期刊發(fā)表論文,并在國(guó)際學(xué)術(shù)會(huì)議上獲獎(jiǎng),但缺乏行業(yè)經(jīng)驗(yàn)。

“我們的核心技術(shù)崗位主要由今年或過(guò)去一兩年畢業(yè)的人員擔(dān)任,”梁文峰在2023年接受媒體采訪時(shí)表示。這種招聘策略有助于營(yíng)造一個(gè)自由協(xié)作的公司文化,研究人員可以利用充足的計(jì)算資源來(lái)開(kāi)展不拘一格的研究項(xiàng)目。這與中國(guó)傳統(tǒng)互聯(lián)網(wǎng)公司形成鮮明對(duì)比,在后者中,團(tuán)隊(duì)通常為資源爭(zhēng)斗激烈。

沒(méi)有囤積頂級(jí)GPU,沒(méi)有招攬資深A(yù)I人才,沒(méi)有高昂的運(yùn)行成本,一樣可以拿出最佳的大模型,DeepSeek的一切都讓硅谷AI巨頭們感到沮喪。

硅谷巨頭陷入沮喪

被挑戰(zhàn)的巨頭們是怎么看待DeepSeek呢?OpenAI創(chuàng)始人兼CEO奧特曼(Sam Altman)的表態(tài)讓人感覺(jué)有點(diǎn)酸。他在社交媒體上表示:“復(fù)制已知有效的方案相對(duì)容易,但探索未知領(lǐng)域則充滿挑戰(zhàn)。” 這一言論被廣泛解讀為對(duì)DeepSeek的暗諷,暗示中國(guó)AI模型缺乏真正的創(chuàng)新,僅僅是在復(fù)制現(xiàn)有的有效方法。

Perplexity AI的CEO斯林尼瓦斯(Arvind Srinivas,印度人)從市場(chǎng)影響的角度來(lái)看待這一發(fā)布:“DeepSeek在很大程度上復(fù)制了OpenAI o1 mini并開(kāi)源了它!钡操潎@了DeepSeek的快速步伐:“看到推理如此迅速地商品化,這有點(diǎn)瘋狂。”他表示,自己的團(tuán)隊(duì)會(huì)將DeepSeek R1的推理能力引入Perplexity Pro。

Stability AI的創(chuàng)始人Emad Mostaque暗示DeepSeek的發(fā)布給資金更充裕的競(jìng)爭(zhēng)對(duì)手帶來(lái)了壓力:“你能想象一個(gè)籌集了10億美元的前沿實(shí)驗(yàn)室現(xiàn)在無(wú)法發(fā)布其最新模型,因?yàn)樗鼰o(wú)法擊敗DeepSeek嗎?”

Meta AI首席科學(xué)家楊立昆(Yann

LeCun,法國(guó)人)則強(qiáng)調(diào)中國(guó)人是依靠開(kāi)源的優(yōu)勢(shì)取得成功。他在對(duì)DeepSeek的成功表示贊賞的同時(shí)強(qiáng)調(diào),DeepSeek的成功并非意味著中國(guó)在AI領(lǐng)域超越美國(guó),而是證明了開(kāi)源模型正在超越閉源系統(tǒng)。

楊立昆表示,DeepSeek從開(kāi)源研究和開(kāi)源代碼中受益匪淺,他們提出了新想法,并在他人工作的基礎(chǔ)上進(jìn)行創(chuàng)新。由于他們的工作是公開(kāi)和開(kāi)源的,所有人都能從中獲益。這體現(xiàn)了開(kāi)源研究和開(kāi)源代碼的力量。 他認(rèn)為,DeepSeek的成功提現(xiàn)開(kāi)源生態(tài)系統(tǒng)在推動(dòng)AI技術(shù)進(jìn)步中的重要性,表明通過(guò)共享和協(xié)作,開(kāi)源模型能夠?qū)崿F(xiàn)快速創(chuàng)新和發(fā)展。

但Meta內(nèi)部可沒(méi)有這么淡定。過(guò)去幾天,職場(chǎng)匿名平臺(tái)teamblind上有一個(gè)來(lái)自Meta員工的貼子被瘋傳。帖子稱Meta內(nèi)部因?yàn)镈eepSeek的模型,現(xiàn)在已經(jīng)進(jìn)入恐慌模式,不僅是因?yàn)镈eepSeek的優(yōu)秀表現(xiàn),更是因?yàn)闃O低的成本和團(tuán)隊(duì)組成。

“一切都因?yàn)镈eepSeek-V3的出世,它在基準(zhǔn)測(cè)試中已經(jīng)讓Llama 4相形見(jiàn)絀。更讓人難堪的是,一家中國(guó)公司僅用550萬(wàn)美元訓(xùn)練預(yù)算就做到了這一點(diǎn),F(xiàn)在Meta的工程師們正在爭(zhēng)分奪秒地分析DeepSeek,試圖復(fù)制其中的一切可能技術(shù)。這絕非夸張。而且,管理層正為GenAI研發(fā)部門(mén)的巨額投入而發(fā)愁。當(dāng)部門(mén)里一個(gè)高管的薪資就超過(guò)訓(xùn)練整個(gè)DeepSeek V3的成本,而且這樣的高管還有數(shù)十位,他們?cè)撊绾蜗蚋邔咏淮?/P>

高效算法彎道超車(chē)

那么,DeepSeek究竟是怎樣實(shí)現(xiàn)彎道超車(chē),在算力明顯落后,成本只是零頭的情況下,打造出可以媲美甚至超越硅谷AI巨頭的大模型呢?

美國(guó)的出口管制嚴(yán)重限制了中國(guó)科技公司以“西方式”的方法參與人工智能競(jìng)爭(zhēng),即通過(guò)無(wú)限擴(kuò)展芯片采購(gòu)并延長(zhǎng)訓(xùn)練時(shí)間。因此,大多數(shù)中國(guó)公司將重點(diǎn)放在下游應(yīng)用,而非自主構(gòu)建模型。但DeepSeek的最新發(fā)布證明,獲勝的另一條道路是:通過(guò)重塑AI模型的基礎(chǔ)結(jié)構(gòu),并更高效地利用有限資源。

因?yàn)樗懔Y源不足,DeepSeek不得不開(kāi)發(fā)更高效的訓(xùn)練方法。“他們通過(guò)一系列工程技術(shù)優(yōu)化了模型架構(gòu)——包括定制化芯片間通信方案、減少字段大小以節(jié)省內(nèi)存,以及創(chuàng)新性地使用專家混合模型(Mixture-of-Experts)方法,”Mercator研究所的軟件工程師溫迪·張(Wendy Chang)表示!霸S多這些方法并非新鮮,但成功地將它們整合以生產(chǎn)尖端模型是相當(dāng)了不起的成就。”

DeepSeek還在“多頭潛在注意力”(Multi-head Latent Attention,MLA)和“專家混合模型”方面取得了重大進(jìn)展,這些技術(shù)設(shè)計(jì)使DeepSeek的模型更具成本效益,訓(xùn)練所需的計(jì)算資源遠(yuǎn)少于競(jìng)爭(zhēng)對(duì)手。事實(shí)上,據(jù)研究機(jī)構(gòu)Epoch AI稱,DeepSeek的最新模型僅使用了Meta Llama 3.1模型十分之一的計(jì)算資源。

中國(guó)AI研究人員實(shí)現(xiàn)了許多人認(rèn)為遙不可及的成就:一個(gè)免費(fèi)、開(kāi)源的AI模型,其性能可以媲美甚至超越OpenAI最先進(jìn)的推理系統(tǒng)。更令人矚目的是他們的實(shí)現(xiàn)方式:讓AI通過(guò)試錯(cuò)自我學(xué)習(xí),類似于人類的學(xué)習(xí)方式。

研究論文中寫(xiě)道:“DeepSeek-R1-Zero是一個(gè)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)(RL)訓(xùn)練的模型,無(wú)需監(jiān)督微調(diào)(SFT)作為初步步驟,展示了卓越的推理能力!

“強(qiáng)化學(xué)習(xí)”是一種方法,模型在做出正確決策時(shí)獲得獎(jiǎng)勵(lì),做出錯(cuò)誤決策時(shí)受到懲罰,而無(wú)需知道哪個(gè)是哪個(gè)。經(jīng)過(guò)一系列決策后,它會(huì)學(xué)會(huì)遵循由這些結(jié)果強(qiáng)化的路徑。

DeepSeek R1是AI發(fā)展的一個(gè)轉(zhuǎn)折點(diǎn),因?yàn)槿祟愒谟?xùn)練中的參與最少。與其他在大量監(jiān)督數(shù)據(jù)上訓(xùn)練的模型不同,DeepSeek R1主要通過(guò)機(jī)械強(qiáng)化學(xué)習(xí)進(jìn)行學(xué)習(xí)——本質(zhì)上是通過(guò)實(shí)驗(yàn)和獲得反饋來(lái)解決問(wèn)題。該模型甚至在沒(méi)有明確編程的情況下,發(fā)展出了自我驗(yàn)證和反思等復(fù)雜能力。

隨著模型經(jīng)歷訓(xùn)練過(guò)程,它自然學(xué)會(huì)了為復(fù)雜問(wèn)題分配更多的“思考時(shí)間”,并發(fā)展出捕捉自身錯(cuò)誤的能力。研究人員強(qiáng)調(diào)了一個(gè)“頓悟時(shí)刻”,模型學(xué)會(huì)了重新評(píng)估其最初的問(wèn)題解決方法——這是它沒(méi)有被明確編程去做的事情。

開(kāi)源模型廣獲贊賞

值得一提的是,DeepSeek愿意將其創(chuàng)新成果開(kāi)源,使其在全球AI研究社區(qū)中獲得了更大的贊賞。 與專有模型不同,DeepSeek R1的代碼和訓(xùn)練方法在MIT許可證下完全開(kāi)源,這意味著任何人都可以獲取、使用和修改該模型,沒(méi)有任何限制。

對(duì)許多中國(guó)AI公司來(lái)說(shuō),開(kāi)發(fā)開(kāi)源模型是趕超西方競(jìng)爭(zhēng)對(duì)手的唯一方式,因?yàn)檫@樣可以吸引更多用戶和貢獻(xiàn)者,幫助模型不斷成長(zhǎng)。在OpenAI逐漸封閉化的當(dāng)下,DeepSeek的開(kāi)源得到了AI從業(yè)人員的交口稱贊。

英偉達(dá)資深研究員樊錦(Jim Fan)博士贊揚(yáng)了DeepSeek前所未有的透明度,并直接將其與OpenAI的原始使命相提并論。“我們生活在一個(gè)非美國(guó)公司保持OpenAI原始使命的時(shí)間線上——真正開(kāi)放的、前沿的研究,賦能所有人,”樊錦指出。

樊錦指出了DeepSeek強(qiáng)化學(xué)習(xí)方法的重要性:“他們可能是第一個(gè)展示[強(qiáng)化學(xué)習(xí)]飛輪持續(xù)增長(zhǎng)的開(kāi)源軟件項(xiàng)目!彼贊揚(yáng)了DeepSeek直接分享“原始算法和matplotlib學(xué)習(xí)曲線”,而不是行業(yè)中更常見(jiàn)的炒作驅(qū)動(dòng)公告。

遵循同樣的推理,但帶有更嚴(yán)肅的論證,科技企業(yè)家Arnaud Bertrand解釋說(shuō),競(jìng)爭(zhēng)性開(kāi)源模型的出現(xiàn)可能對(duì)OpenAI沖擊巨大,因?yàn)檫@會(huì)使OpenAI模型對(duì)付費(fèi)意愿強(qiáng)烈的高級(jí)用戶的吸引力降低,從而損害OpenAI的商業(yè)模式!斑@基本上就像有人發(fā)布了一款與iPhone相當(dāng)?shù)氖謾C(jī),但售價(jià)為30美元而不是1000美元。這是戲劇性的。”

出口管制面臨挑戰(zhàn)

這對(duì)英偉達(dá)來(lái)說(shuō),DeepSeek的橫空出世是一個(gè)利空因素。很多AI行業(yè)人士不禁開(kāi)始思考另一個(gè)問(wèn)題:既然DeepSeek用上一代芯片的閹割版就可以訓(xùn)練出最強(qiáng)勁的大模型,那么科技巨頭們還需要繼續(xù)瘋狂燒錢(qián)搶購(gòu)英偉達(dá)的最新GPU嗎?這個(gè)問(wèn)題細(xì)思極恐。

眾所周知,因?yàn)槊绹?guó)政府的AI芯片禁運(yùn),中國(guó)無(wú)法采購(gòu)英偉達(dá)最高性能的AI芯片,而H800則是高算力A100芯片的閹割版。與A100相比,H800的核心數(shù)量、頻率和顯存方面明顯較低,算力上降幅大約在10-30%之間,主要不需要頂級(jí)算力的場(chǎng)景,例如中等規(guī)模的AI訓(xùn)練與推理任務(wù)。H800的內(nèi)存帶寬被限制在 1.5 TB/s,而A100 80GB版本可達(dá)到 2 TB/s,這將直接影響數(shù)據(jù)處理能力,尤其在深度學(xué)習(xí)任務(wù)中。

Scale AI的亞歷山大·王堅(jiān)持認(rèn)為,DeepSeek的芯片數(shù)量可能遠(yuǎn)遠(yuǎn)高于外界想象。他公開(kāi)表示,自己認(rèn)為DeepSeek至少擁有5萬(wàn)塊H100,他們不會(huì)公布具體數(shù)字。

H100的算力是A100的六到七倍,這款3萬(wàn)美元起售的頂級(jí)GPU也是目前硅谷科技巨頭們爭(zhēng)先搶購(gòu)的軍火。Meta和微軟都超過(guò)采購(gòu)了15萬(wàn)塊H100,谷歌、甲骨文和亞馬遜都采購(gòu)了5萬(wàn)塊,馬斯克的xAI更部署了10萬(wàn)塊H100組成的超級(jí)計(jì)算機(jī)集群用于訓(xùn)練大預(yù)言模型Grok3。

亞歷山大·王進(jìn)一步表示,未來(lái)中國(guó)AI行業(yè)可能會(huì)面臨更多挑戰(zhàn),“未來(lái)他們將受到我們已經(jīng)實(shí)施的芯片和出口管制的限制,難以再獲取更多芯片!彼现茉凇度A盛頓郵報(bào)》購(gòu)買(mǎi)了整版廣告,寫(xiě)道“美國(guó)必須贏下這場(chǎng)AI戰(zhàn)爭(zhēng)!”

編 輯:高靖宇
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
2024通信業(yè)年終盤(pán)點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國(guó)光電纜優(yōu)質(zhì)供應(yīng)商評(píng)選活動(dòng)
2024全球6G發(fā)展大會(huì)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像