大陸AI創新公司「DeepSeek」橫空出世,成為撼動美股的「黑天鵝」,大陸專家指出,DeepSeek成功的關鍵在於其技術創新、成本低廉以及運用開源模型3方面主要因素。
大陸AI新創企業DeepSeek(深度求索)近期推出「DeepSeek-V3」與「DeepSeek-R1」兩款最新的AI模型。這兩款模型具備低廉的製造成本,且採用運算能力相對低階的輝達H800晶片,卻擁有與全球頂尖AI語言模型匹敵的表現(例如OpenAI 的 ChatGPT-4),撼動美國矽谷科技界,迅速在美國走紅,27日更一舉超越ChatGPT登上美國區蘋果App Store免費榜上首位。
對此,新浪科技引述大陸工程院院士、清華大學電腦系教授鄭緯民的看法,點出了DeepSeek成功主要有3個核心因素:首先技術層面方面,DeepSeek核心自主研製的DeepSeek-V3和DeepSeek-R1 兩個模型,其效能與OpenAI的4o和o1模型相當。其次成本低廉方面, DeepSeek研發出的這兩個模型成本僅為OpenAI 4o和o1模型的十分之一左右。最後在開源模型方面,DeepSeek將這兩個強大的模型技術開源,讓廣大的AI團隊可以利用這些最先進且成本最低的模型,開發更多具有創新性的AI應用程式。
被問到DeepSeek如何實現模型成本降低,鄭緯民指出,DeepSeek自主研發的MLA(Memory-Limited Attention)架構和 DeepSeek MoE(Mixture of Experts)架構,對於降低其模型訓練成本發揮了關鍵作用。
他表示,「MLA主要透過改造注意力算子壓縮 KV Cache 大小,實現了在相同容量下可以儲存更多的KV Cache。此架構與DeepSeek-V3模型中的FFN層改造相配合,實現了一個非常大的稀疏MoE層。這是DeepSeek訓練成本低廉的最關鍵原因」。據悉,KV Cache是一種優化技術,常用於儲存人工智慧模型運作時產生的token的鍵值對(即key-value數值),以提高運算效率。
在模型運算過程中,KV cache會在模型運算過程中扮演一個記憶體庫的角色,以儲存模型之前處理過的token鍵值,透過模型運算計算出注意力分數,有效控制被儲存 token 的輸入輸出,透過「以存換算」避免了大多數大模型運算每次都是從第一個 token 開始運算的重複計算,提升了算力使用效率。
圖靈獎得主、主導Meta AI研究的首席科學家楊立昆(Yann LeCun)日前表示,DeepSeek成功的最大收穫並非大陸對其他國家帶來更大威脅,而是更是突顯開源模型的重要性,以及AI開源的價值使任何人都能受益。楊立昆在Threads寫道,「對於那些看到DeepSeek表現並認為『中國在AI領域正超越美國』的人而言,你的解讀錯了;正確解讀應是『開源模型正超越專有模型』」。