「AI教母」6百元復刻DeepSeek？專家揭原因

知名華裔美籍科學家李飛飛有著「AI 教母」之稱，她領導的團隊近日宣布成功打造出一個名為「s1-32B」的AI推理模型，其部分能力可媲美OpenAI-o1及Deepseek-R1，且算力成本僅20美元，引發業內外熱議。

李飛飛團隊成功打造新AI推理模型「s1-32B」，其部分能力可媲美OpenAI-o1及Deepseek-R1。（示意圖／美聯社）

據多家外媒6日報導，史丹佛大學教授李飛飛等人的研究論文《s1： Simple test-time scaling》指出，「s1-32B」在數學和編碼能力測試中的表現媲美Open AI的o1和DeepSeek的R1，在數學競賽類問題上的表現甚至超越了OpenAI的o1預覽版，並秀出在MATH和AIME24數據集上的成績，比o1-預覽版高出27%之多。

根據論文內容，利用阿里系開源的Qwen2.5-32B-Instruct模型進行監督微調（SFT），僅需在16個輝達H100 GPU上訓練26分鐘，而所需的算力租賃成本約為20美元（約656新台幣）。憑藉低成本、高效能，「s1-32B」模型成為繼DeepSeek之後再次引發科技界熱議的話題。

play_circle_outline 馬斯克出價3兆收購OpenAI　遭奧特曼「秒拒」

據陸媒《每日經濟新聞》報導，針對成本問題，上海復旦大學計算機學院副教授鄭驍慶指出，「s1-32B」模型的打造並非從零開始，而是基於現成的、預訓練的模型進行監督微調，兩種做法的成本是無法相提並論的，且20美元僅為算力陳本，未涵蓋其他成本。

據報導，AI數據公司Databricks研究員Omar Khattab評價稱，李飛飛團隊的論文似乎是關於Qwen模型的某種發現。Google DeepMind資深研究員Wenhu Chen亦表示，「真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型，用同樣的數據去訓練，但最終並不能達到這麼好的效果。」

More Qwen. I'm increasingly comfortable saying these papers seem to be a discovery of some sort about Qwen models, not necessarily about reasoning. https://t.co/HHlS0xXDyT

play_circle_outline 「飛機上有炸彈」！美航空公司遭惡作劇「延誤5小時」

— Omar Khattab (@lateinteraction) February 6, 2025