大陸1月底推出的AI聊天機器人DeepSeek引起全球關注,輝達首當其衝,1月27日當天股價崩跌16.97%,市值蒸發5926.58億美元(約台幣19.37兆)。時隔近一個月,輝達執行長黃仁勳20日在全球最大私有儲存系統業者DDN的線上演說中表示,投資人對DeepSeek進步的解讀錯誤,AI的後訓練(Post-training)才是決定智慧高低的關鍵,這將推動對輝達晶片的需求不減反增。
AI的後訓練(Post-training)是指在模型上架前或上架初期,針對特殊需要或資料集進行額外訓練,以優化模型性能,包括Fine-tuning(微調)和Reinforcement Learning from Human Feedback(RLHF,基於人類反饋的強化學習)等。
黃仁勳表示,投資者普遍認為 AI 的流程是預訓練(Pre-training)+推理(Inference),也就是向 AI 提問後立即得到答案;預訓練固然重要,但後訓練才是決定智慧高低的關鍵,也是 AI 學習解決問題的關鍵階段。
黃仁勳表示,AI產業仍需要運算能力進行AI模型的後訓練,隨著後訓練的方法不斷增加、漸趨多元,對輝達晶片所供應運算能力的需求將會增加;後訓練讓AI模型能在完成訓練後,做出結論或進行預測。
不過,黃仁勳也稱讚DeepSeek開源 R1 模型,激發全球AI領域的活力,令人興奮。
輝達曾在1月27 日發聲明稱,中國AI 公司 DeepSeek 的進步表明輝達晶片對中國市場的可用性,未來將需要更多的輝達晶片來滿足 DeepSeek 服務的需求。
輝達發言人表示,DeepSeek 是一項出色的AI進步,也是測試階段運算擴展(Test-Time Scaling) 的完美範例;而且DeepSeek 的技術仍然高度依賴輝達的硬體,因為「推理需要大量 NVIDIA GPU與高效能網路」。