「AI教母」6百元復刻DeepSeek?陸媒:站在「巨人肩膀」上

分享:
0:00
volume_up

知名華裔美籍科學家李飛飛有著「AI 教母」之稱,她領導的團隊近日宣布成功打造出一個名為「s1-32B」的AI推理模型,其部分能力可媲美OpenAI-o1及Deepseek-R1,且算力成本僅20美元,引發業內外熱議。

李飛飛團隊成功打造新AI推理模型「s1-32B」,其部分能力可媲美OpenAI-o1及Deepseek-R1。(示意圖/美聯社)

據多家外媒6日報導,史丹佛大學教授李飛飛等人的研究論文《s1: Simple test-time scaling》指出,「s1-32B」在數學和編碼能力測試中的表現媲美Open AI的o1和DeepSeek的R1,在數學競賽類問題上的表現甚至超越了OpenAI的o1預覽版,並秀出在MATH和AIME24數據集上的成績,比o1-預覽版高出27%之多。

根據論文內容,利用阿里系開源的Qwen2.5-32B-Instruct模型進行監督微調(SFT),僅需在16個輝達H100 GPU上訓練26分鐘,而所需的算力租賃成本約為20美元(約656新台幣)。憑藉低成本、高效能,「s1-32B」模型成為繼DeepSeek之後再次引發科技界熱議的話題。

據陸媒《每日經濟新聞》報導,針對成本問題,上海復旦大學計算機學院副教授鄭驍慶指出,「s1-32B」模型的打造並非從零開始,而是基於現成的、預訓練的模型進行監督微調,兩種做法的成本是無法相提並論的,且20美元僅為算力陳本,未涵蓋其他成本。

據報導,AI數據公司Da​​tabricks研究員Omar Khattab評價稱,李飛飛團隊的論文似乎是關於Qwen模型的某種發現。Google DeepMind資深研究員Wenhu Chen亦表示,真正神奇的是Qwen模型。我們嘗試過把基座模型換成其他模型,用同樣的數據去訓練,但最終並不能達到這麼好的效果。

《每日經濟新聞》指出,「s1-32B」是站在了「巨人肩膀」上,而李飛飛團隊的「低成本」並未涵蓋Qwen模型的訓練費用。鄭驍慶表示,大規模的數據可能不會成為下一步的必爭之地,其成本和產出之間的比例在慢慢壓縮,未來高品質數據的微調和強化學習未來將會有更多的投入

留言衝人氣 2則留言

登入留言有機會獲得旺幣哦!
NO MESSAGE 無任何留言,趕緊搶頭香!