DeepSeek動搖運算信仰 復旦教授:不是中美較勁 是開源追趕閉源

陸企「深度求索」(DeepSeek )推出兩款新模型,一周之內登美國同類型APP下載榜首,功能與動輒數百億美元的Chat GPT不相上下,震撼世界。圖/中央社
陸企「深度求索」(DeepSeek )推出兩款新模型,一周之內登美國同類型APP下載榜首,功能與動輒數百億美元的Chat GPT不相上下,震撼世界。圖/中央社

最近,大陸AI企業深度求索(DeepSeek)在全球掀起波瀾,矽谷巨頭恐慌,華爾街焦慮。短短一個月內,DeepSeek-V3R1兩款大模型,相繼推出成本與動輒數億甚至上百億美元的國外大模型相比堪稱低廉,性能與國外頂尖模型相當。對此,上海復旦大學副教授鄭驍慶說,這不是中國追趕美國的問題,而是開源追趕閉源的問題。

作為「AI界的拼多多」,DeepSeek還動搖輝達的「運算力信仰」,旗下模型DeepSeek-V3僅使用2048塊輝達的H800 GPU,在短短兩月內訓練完成。除性價比超高,DeepSeek得到如此高關注度,還有另一原因——開源。DeepSeek徹底打破以往大型語言模型被少數公司壟斷的局面。

在大陸被譽為「深度學習三巨頭」之一的楊立昆日前在社群平台表示,開源模型能吸引全世界頂尖人才進行優化,對模型更新和反覆運算有加速作用。此外,開源模型的透明性有助消除使用安全的顧慮,促進全球範圍內人工智慧技術的公平應用。對此策略選擇,先前OpenAI執行長阿特曼(Sam Altman)就曾表態說:「OpenAI在開源AI軟體方面,一直站在歷史錯誤的一邊。」對此,上海復旦大學副教授鄭驍慶接受《每日經濟新聞》專訪時,也持同樣觀點。

上海復旦大學電腦學院副教授楊立昆受訪時說,DeepSeek有些「創新」,選擇開源的策略是正確的。圖/取自每日經濟新聞網

上海復旦大學電腦學院副教授楊立昆受訪時說,DeepSeek有些「創新」,選擇開源的策略是正確的。圖/取自每日經濟新聞網

在復旦電腦學院擔任副教授、博士生導師的鄭驍慶說,DeepSeek在工程優化方面取得顯著成果,特別是在降低訓練和推理成本方面。他說,「業界存在兩個法則,一是規模法則(Scaling Law),另一個是指隨著技術不斷發展,在既有技術基礎上持續改進,能大幅降低成本。」

儘管DeepSeek模型降低運算力需求,但鄭驍慶認為,AI模型仍需一定的硬體基礎,支援大規模訓練和推理。此外,大規模資料中心和預訓練仍是AI發展的重要組成部分,但未來可能會更注重高品質資料的微調和強化學習。

微軟CEO納德拉(Satya Nadella)在2024 Q4財報會議說,DeepSeek「有一些真正的創新」,對此,鄭驍慶表示,在深入研讀DeepSeek技術報告後,發現DeepSeek在降低模型訓練和推理成本方面採用的方法,大多基於業界已有的技術探索。如鍵值快取(Key-Value cache)管理,對快取資料進行壓縮;另一個是混合專家模型(MoEMixture of Experts),實際是指在推理時,只需使用模型某一特定模組,不需所有模型的網路結構和參數都參與這推理過程。

此外,Deepseek還採用FP8混合精度訓練技術手段。這些先前都有探索,而DeepSeek的創新處就在,很好地將這些能降低技術和推理成本的技術整合起來。

DeepSeek尚未達全球領先水準

DeepSeek出世,舉世震驚,不過這並不去DeepSeek技術水準上已達到全球領先水準。鄭驍慶表示,DeepSeek目前在現有技術基礎,包括網路結構訓練演算法,實現了一種階段性改進,但並非是本質上的顛覆性創新。其改進主要是針對特定任務,如DeepSeek在數學、代碼處理及推理任務等方面,提出一種在性能與成本上相對平衡的解決方案。但在開放領域(open domain)上的表現,優勢不是十分明顯。

鄭驍慶說,業界存在兩個法則,一是規模法則(Scaling Law),即模型參數規模越大、訓練資料越多,模型會更好。另一個是隨著技術不斷發展,在既有技術基礎上持續改進,能大幅降低成本。以GPT-3為例,早期成本就很高,但隨著深入研究,研究目標會漸清晰,成本實際上也會降低。

他說,DeepSeek的成功更可能是工程優化上的成功,也很高興看到大陸科技企業在大模型的時代,在性能與成本平衡方面取得顯著進展,不斷推動大模型的使用和訓練成本下降。符合剛才提到的第二法則情況下,走到世界前列。

DeepSeek有效平衡性能和成本 但對晶片需求影響不大

DeepSeek旗下模型最大亮點之一是,在訓練和推理過程顯著降低算力需求,但是否長期看,會對輝達等晶片進業造成什麼影響?鄭驍慶認為,它不會對晶片採購量或出貨量產生太大影響。

首先,鄭驍慶說,像DeepSeek或類似的企業,在尋找有效整合解決方案時,需要進行大量前期研究與消融實驗。所謂消融實驗,是指通過系列測試確定哪個方案是有效及哪些方案的整合是有效的。而這些測試就很依賴晶片,因為晶片越多,反覆運算次數越多,就越容易知道哪個部分工作或不工作。

比,DeepSeek的訓練預算不到600萬美元。它在技術報告中提到,不到600萬美元的資金,是按GPU的小時數(每小時2美元)來計算。也就是說,他們基於之前的很多研究,把整條訓練流程都搞清楚情況下(哪些是工作,哪些不工作的),重走一遍,才得出這結果。但報告也提到,600萬美元其實未包含先期研究成本,如結構、演算法、資料採集上的探索,也沒涵蓋消融實驗的開銷及設備折舊費。

另外,DeepSeek研究表明,很多中小企業都能用得起這樣的大模型。儘管訓練成本下降可能暫時減少對GPU的需求,但大模型變得更經濟,會使原本因模型成本太高而不打算使用大模型的企業,加入使用模的行列,反而會增加對晶片的需求。

開源加速模型更新和反覆運算 降低安全顧慮

DeepSeek採開源模式,與許多國外大模型巨頭閉源做法不同。鄭驍慶認為,從開源模型與閉源模型角度看,開源模型在積累以往研究成果基礎上,在目標明確下,借助各種訓練技巧及模型結構優化,特別是吸收先前研究者在大模型領域已驗證有效的原理和方法,開源模型已能大致追上閉源模型。

他認為,開源模型最大好處就在於一旦模型開源,全球頂尖人才都能基於這些代碼進行進一步反覆運算與優化,這無疑加速模型的更新與發展。相較之下,閉源模型肯定沒這樣的能力,只能靠擁有這個閉源模型所屬機構內部人才去推動模型的反覆運算,反覆運算速度相對受限。

另外,開源模型透明開放,也緩解大眾對於大模型使用安全的一些顧慮。鄭驍慶說,如果模型閉源,大家在使用過程當中可能或多或少會有顧慮。且開源模型對人工智慧普及及全球範圍內的公平應用,也起到非常好的促進作用,特別是技術平權方面。也就是說,當一項科學技術發展起來後,全世界的人,不管來自哪個國家、身處何地,都應用享有平等地享受這種技術所帶來的優勢及其產生的經濟效益。

當代AI競爭 是在中國的中國人和在美國的中國人競爭

DeepSeek團隊多為大陸頂尖大學應屆畢業生、在校博士生,這是否讓中國AI的競爭存在獨特優勢?鄭驍慶說,「我們AI上面的競爭優勢,是人才數量上的優勢。這幾年,大陸的高等教育包括碩、博士培養有了長足進步。現在從中國的頂尖大學看,對博士生、碩士生的培養已比較接近於美國。

實際上,美國許多大模型研究團隊不乏有華的身影。鄭驍慶表示,大家開玩笑說,現在人工智慧競爭是在中國的中國人和在美國的中國人競爭。要說劣勢,其實還是有遺憾的,就是我們很少能有顛覆性的創新。

延伸閱讀

臉書

熱門文章

分享