日前,月之暗面(Moonshot AI)悄然將新一代大模型Kimi K2的代碼,上傳至開源社區(qū)。
關聯(lián)閱讀:萬億參數(shù)MoE開源,實測會寫代碼與Agentic的kimi k2
這個擁有1萬億參數(shù)的“大塊頭”,立刻被全球開發(fā)者關注到。
美國AI搜索公司Perplexity CEO阿拉溫德(Aravind Srinivas)隨即在社交平臺上發(fā)聲稱,“K2的表現(xiàn)令人驚喜,我們很可能將基于它進行后訓練?!?/p>
海外開發(fā)者@Paul Couvert的點評更加直白:“K2幾乎能媲美Claude 4和GPT-4.1,關鍵還開源免費?!?/p>
Kimi的再次刷屏,簡直讓人驚喜。
這個國內 AI 行業(yè)的“初代明星”,在 2024 年憑借 20 萬字長文本處理能力,迅速崛起。
公司創(chuàng)始人楊植麟更被視為“中國版奧特曼”,其技術理想主義者氣質與搖滾元素,讓月之暗面公司獨具魅力。
很快,公司陷入買流量爭議,被業(yè)界質疑用戶增長真實性。
月之暗面團隊成員熊貍在 k2 發(fā)布后發(fā)帖稱,對此,到現(xiàn)在都還有很多 diss的聲音。
他說, 公司停止投流之后,不少應用商店搜索 kimi ,甚至第一頁都看不見。
2025年初,因投資人分歧爆發(fā)仲裁糾紛,隨后又把這家年輕的公司,拖入巨大的漩渦,至今未有定論。
更大的打擊則來自橫空出世的DeepSeek。
DeepSeek-R1 的發(fā)布,讓包括Kimi 在內的“AI 六小龍”,甚至大廠大模型都黯淡無光。
“年初 DeepSeek-R1 暴漲之后,很多人說 Kimi 是不是不行了”。熊貍在最近的帖子里說。
但月之暗面不少同事都認為,DeepSeek-R1 的爆火,是個大好事。
熊貍稱,因為它證明了那條我們相信的路不僅能走通,而且是一條康莊大道,“唯一的遺憾就是,這條路不是我們走通的”。
他透露稱,為此,楊植麟進行了“比我想的還要激進”的改革,比如,不再更新K1系列模型,集中資源搞基礎算法和K2。
這期間,當然也存在不少干擾。
尤其隨著 Agent產(chǎn)品的爆火,不少聲音說 ,Kimi 不應該卷大模型,應該去做 Agent產(chǎn)品。
熊貍對此的說法,頗具“月之暗面氣質”。
他稱, 2025年,智能的上限仍然完全由模型決定,“作為一家以 AGI 為目標的公司,如果不去追求智能的上限,那我一天也不會多呆下去”。
他還順便揶揄了下非技術理想主義者的同行。
熊貍透露,2024年6月智源大會上,他聽到開復老師脫口而出地說“我作為一個投資人我會關注AI應用的 ROI”,就知道他創(chuàng)立的那家公司活不長了。
目前來看,“AI 六小龍”中,百川智能和零一萬物已經(jīng)轉向,前者聚焦醫(yī)療垂類應用,后者停止萬億參數(shù)級超大模型訓練,轉向更具性價比的中等規(guī)模模型和企業(yè)級業(yè)務 。
和月之暗面一樣,智譜 AI、MiniMax、階躍星辰,都還在堅持通用大模型。
不同的選擇,不同的現(xiàn)狀,差不多的壓力。
產(chǎn)品端,智譜、階躍、Minimax 與月之暗面一樣,都不斷有新品推出,零一萬物與百川則相對更加沉寂。
但在 DeepSeek 和阿里、字節(jié)、騰訊 雙重擠壓下,這些創(chuàng)業(yè)公司大模型產(chǎn)品的挑戰(zhàn)不小。
日前,有月之暗面工程師在知乎發(fā)帖稱,在啟動K2訓練之前,他們進行了大量模型結構相關的scaling實驗。
結果是,所有當時propose的、與 DeepSeek v3不同的結構,沒有一個能真正打敗他的,頂多旗鼓相當。
最后,k2 的產(chǎn)品路徑也只能是,在給定DeepSeek v3 結構的框架之下,選擇合適的參數(shù),使得模型在訓練、推理成本與其相當?shù)那疤嵯拢@得明顯更低的loss。
“六小龍”市場端的分化也比較明顯。
最新消息顯示,MiniMax 近 3 億美元的新一輪融資已接近完成,投后估值超過 40 億美元,與智譜相當。
同時,智譜、MiniMax 都已啟動上市進程,看誰能最終沖刺成功。
零一萬物和百川都不時傳出高管離職、生存堪憂的消息,也沒有新的融資進展。
熊貍說,AGI 容不得一起分心和猶豫,堅持追求未必成功,“但猶豫一定會失敗”。
現(xiàn)在看來,后半句差不多言中。
那么,堅持Scaling Law、堅持預訓練、堅持開源的技術理想主義們,會最終走向成功么
您也可以關注我們的官方微信公眾號(ID:ctoutiao),給您更多好看的內容。