價格戰兇猛，AI小模型狂飆

2024年07月29日 20:11 21世紀經濟報道 21財經APP 孔海麗

更高效、更靈活。

21世紀經濟報道記者孔海麗、實習生劉清怡北京報道

AI小模型大爆發，成為AI巨頭的新角力賽場。

大模型價格戰“卷生卷死”，投入了巨額資金的AI企業，亟需在商業故事上再進一步，最近紛紛祭出了自家低成本、易部署的小模型，新一輪較量拉開。

先是HuggingFace發布了SmolLM - 135M、360M和1.7B，僅使用650B個token進行訓練，性能卻超過了Qwen 1.5B、Phi 1.5B。

隔日，Mistral AI和英偉達聯合發布Mistral NeMo，被稱為“Mistral AI最佳小型模型”，易于使用，可以直接替代任何使用Mistral 7B的系統。

就在同一天，OpenAI下場“血拼”，推出了GPT-4o 的迷你版——GPT-4o Mini，稱這款新模型是“功能最強、性價比最高的小參數模型”，并將其作為展示模型，替換了GPT-3.5的網頁版“臺前”位置。

蘋果也不甘示弱，與OpenAI同日發布了DCLM小模型，并且發布即開源。蘋果ML小組研究科學家Vaishaal Shankar說“這是迄今為止性能最好的真正開源的模型”。

這些模型參數小、占內存少，在特定場景中，經過精調后使用效果可以媲美大模型，成為性價比之選。

“小模型一定是更容易實現價值的。”一位人工智能首席架構師在接受21世紀經濟報道記者采訪時表示：“一批專業小模型配合agents實現業務流的整合，功能和經濟性上都會更加可行。”

在AI生成式模型戰場上，迭代速度極快，可能今天的“最好”，馬上就會被明天的新版本打敗，“歷史記錄”不斷被顛覆重寫。“模型更新太快，都不好評判，前腳有廠商說自家是‘最大最好的’，后腳就有另外一家說自己是‘最小最好的’。”人工智能行業資深觀察人士告訴21世紀經濟報道記者，人工智能模型眼花繚亂，AI企業要想跑通商業故事，必須十倍、百倍努力。

小模型賽道開“卷”

AI巨頭們密集發布小模型，既比性能，還拼價格。

根據Open AI官網，在MMLU、MGSM、HumanEval、MMMU等基準測試中，GPT-4o mini均展現出了比GPT-3.5 Turbo和Gemini Flash、Claude Haiku等小模型更加出色的文本和視覺推理、數學推理、編碼和多模態推理能力，尤其是數學推理和編碼能力遠勝過GPT-3.5 Turbo和其他小模型，稍弱于GPT-4o。在最新的LMSYS盲測競技場排名中，GPT-4o mini還取得了與GPT-4o并列第一的好成績，連OpenAI的CEO Sam Altman也難掩激動的心情，在社交媒體平臺上發文稱，“我們從未對任何一項評估感到如此興奮。”

除了優異的性能，OpenAI還拿出了低價殺手锏。7月18日上線時，OpenAI宣布GPT-4o mini的定價為每百萬輸入token15美分和每百萬輸出token60美分，比GPT-3.5 Turbo便宜60%以上。7月24日，OpenAI再次宣布，從即日起至9月23日，免費為4級、5級用戶提供GPT-4o mini微調服務，每天限制200萬token，超過的部分按照每100萬token3美元收費。OpenAI稱：“我們期待GPT-4o mini將擴大人工智能的應用范圍，使人工智能更加實惠。”

平安證券研報認為，GPT-4omini是價格顯著下降的新一代入門級別人工智能“小模型”，兼具性能與性價比。當前全球范圍內的大模型逐漸呈現由單方面的性能角逐，轉向性能與實用性并重的發展趨勢。大模型能力達到一定水平時必然會走向應用，大模型廠商通過提升其產品性價比，助推下游應用端的推廣部署，有望加速大模型產業鏈商業閉環的形成。

在GPT-4o mini之后發布的蘋果DCLM模型同樣引人矚目，DCLM全面開源了代碼、權重、訓練流程及數據集。DCLM分為14億和70億參數兩種規模，其70億參數版本超越了Mistral-7B ，性能接近Llama 3、Gemma。在MMLU（5-shot）基準測試中，DCLM-7B的準確率為63.7%。根據研究人員的說法，這一性能比此前最先進的開放數據語言模型MAP-Neo提高了6.6％，并減少了40%的計算量。更重要的是，這一結果超越了準確率為62.7%的Mistral-7B-v0.3，并接近于準確率為64.3%的Gemma 8B、66.2%的Llama3 8B和69.9%的Phi-3 7B。

比起“越大越好”，蘋果更傾向于走小模型路線。今年4月，蘋果公布的小模型家族四款預訓練的大模型OpenELM，體量極小，彼時已在朝著“讓人工智能在蘋果設備上本地運行”目標邁進。

6月，蘋果曾透露自己的AI發展路線圖，計劃把小模型順利嵌進移動裝備，不僅能達到“更快速、更安全”的目的，還一舉解決了移動端設備與模型融合的終極難題。

Mistral NeMo是Mistral AI與NVIDIA合作構建的，該模型經過先進的微調和對準階段，在遵循精確指令、推理、處理多輪對話和生成代碼方面表現優異。據了解，Mistral NeMo主要面向企業環境，目的是讓企業在不需要大量云資源的情況下實施人工智能解決方案。

在接受Venturebeat采訪時，英偉達應用深度學習研究副總裁 Bryan Catanzaro 詳細闡述了小型模型的優勢。他說：“小型模型更容易獲取和運行，可以有不同的商業模式，因為人們可以在家中自己的系統上運行它們。”

大模型進入下半場，從技術卷到應用，市場對于更易本地部署的高效率、低成本模型越來越感興趣，這背后折射了對安全性、隱私性以及高效率、高性價比的渴望。

行業分析師認為，AI部署有了一個明顯的新趨勢，即可以在本地硬件上高效運行的模型，正在打消許多企業大規模采用AI方案的擔憂，比如數據隱私、延遲以及高成本等問題。“這可能會使競爭更加公平，資源有限的小企業也將獲得AI模型的加持，從而彌合與大企業之間先天的差距。”

入局小模型賽道背后

AI巨頭們為何紛紛開辟小模型賽道？部分或出于成本因素的考量。

大模型的開發和運行成本高昂，即使像OpenAI這樣的巨頭也難以負擔得起。

近日，有知情人士分析稱“OpenAI今年可能會虧損50億美元，面臨著在12個月內資金耗盡的風險”。截至今年3月，OpenAl花費近40億美元租用微軟的服務器，以運行ChatGPT及其底層大語言模型（LLM）。除了運行ChatGPT之外，OpenAl包括數據費用在內的培訓成本今年可能會飆升至30億美元。據知情人士透露，去年，OpenAl加快了對新AI的訓練，速度超過了最初的計劃，OpenAl原本計劃在這類成本上花費約8億美元，但最終的支出要多得多。

相較之下，小模型成本低、響應速度快，而且可以本地化運行，更能適應個性化、精準化的使用需求。業內人士表示：“在全球AI硬件供不應求的前提下，小模型意味著更低的部署和訓練成本，其產出效果足以應對一些特定任務。”

有國內AI企業相關業務負責人告訴21世紀經濟報道記者，小參數規模可以大幅節省推理成本，模型訓練與調整所需的硬件成本遠遠低于大模型，成熟開發者甚至可以低成本訓練垂直模型，這些操作的成本都遠低于大模型。

OpenAI創始成員、特斯拉前AI高級總監Andrej Karpathy最近的預測頗有代表性，他提出，生成式模型的尺寸競爭將會逆轉，比拼誰的模型更小、更智能。

在Andrej Karpathy的解釋中，當前大模型如此之大，是因為訓練期間仍然非常浪費，雖然大模型在記憶方面非常出色，但這也意味著大模型記住了大量無關緊要的細節，而那些內容本不應該在特定問題中反復被調用。

對于小模型來說，訓練目標變得更簡單、直接、高效，讓AI更直接地學到更有用的信息。

不過，大模型與小模型并非“二選一”，他們的發展路線仍然有著相互借鑒的意義。

Andrej Karpathy稱：“模型必須先變大，然后才能變小。因為我們需要大模型將數據重構、塑造成理想的形式，一個模型幫助生成下一個模型的訓練數據，逐漸得到完美的訓練集，再喂給小模型，而后者不需要完全記住所有的知識，只是偶爾需要查找一些東西以確保準確。”

李彥宏也曾在百度AI開發者大會Create 2024上表示，未來大型的AI原生應用基本都是Moe架構，即大小模型的混用。李彥宏還稱，通過大模型壓縮蒸餾出一個基礎模型，然后再用數據去訓練，比從頭開始訓練小模型的效果要好很多，比基于開源模型訓練出來的模型效果更好，速度更快，成本更低。

價格戰兇猛，AI小模型狂飆

2024年07月29日 20:11 21世紀經濟報道 21財經APP 孔海麗

小模型賽道開“卷”

入局小模型賽道背后

相關新聞

熱文排行

財經日歷

數讀

每日智庫看點

關注我們

公告