21世紀(jì)經(jīng)濟(jì)報道記者孔海麗、實(shí)習(xí)生劉清怡 北京報道
AI小模型大爆發(fā),成為AI巨頭的新角力賽場。
大模型價格戰(zhàn)“卷生卷死”,投入了巨額資金的AI企業(yè),亟需在商業(yè)故事上再進(jìn)一步,最近紛紛祭出了自家低成本、易部署的小模型,新一輪較量拉開。
先是HuggingFace發(fā)布了SmolLM - 135M、360M和1.7B,僅使用650B個token進(jìn)行訓(xùn)練,性能卻超過了Qwen 1.5B、Phi 1.5B。
隔日,Mistral AI和英偉達(dá)聯(lián)合發(fā)布Mistral NeMo,被稱為“Mistral AI最佳小型模型”,易于使用,可以直接替代任何使用Mistral 7B的系統(tǒng)。
就在同一天,OpenAI下場“血拼”,推出了GPT-4o 的迷你版——GPT-4o Mini,稱這款新模型是“功能最強(qiáng)、性價比最高的小參數(shù)模型”,并將其作為展示模型,替換了GPT-3.5的網(wǎng)頁版“臺前”位置。
蘋果也不甘示弱,與OpenAI同日發(fā)布了DCLM小模型,并且發(fā)布即開源。蘋果ML小組研究科學(xué)家Vaishaal Shankar說“這是迄今為止性能最好的真正開源的模型”。
這些模型參數(shù)小、占內(nèi)存少,在特定場景中,經(jīng)過精調(diào)后使用效果可以媲美大模型,成為性價比之選。
“小模型一定是更容易實(shí)現(xiàn)價值的?!币晃蝗斯ぶ悄苁紫軜?gòu)師在接受21世紀(jì)經(jīng)濟(jì)報道記者采訪時表示:“一批專業(yè)小模型配合agents實(shí)現(xiàn)業(yè)務(wù)流的整合,功能和經(jīng)濟(jì)性上都會更加可行。”
在AI生成式模型戰(zhàn)場上,迭代速度極快,可能今天的“最好”,馬上就會被明天的新版本打敗,“歷史記錄”不斷被顛覆重寫。“模型更新太快,都不好評判,前腳有廠商說自家是‘最大最好的’,后腳就有另外一家說自己是‘最小最好的’?!比斯ぶ悄苄袠I(yè)資深觀察人士告訴21世紀(jì)經(jīng)濟(jì)報道記者,人工智能模型眼花繚亂,AI企業(yè)要想跑通商業(yè)故事,必須十倍、百倍努力。
小模型賽道開“卷”
AI巨頭們密集發(fā)布小模型,既比性能,還拼價格。
根據(jù)Open AI官網(wǎng),在MMLU、MGSM、HumanEval、MMMU等基準(zhǔn)測試中,GPT-4o mini均展現(xiàn)出了比GPT-3.5 Turbo和Gemini Flash、Claude Haiku等小模型更加出色的文本和視覺推理、數(shù)學(xué)推理、編碼和多模態(tài)推理能力,尤其是數(shù)學(xué)推理和編碼能力遠(yuǎn)勝過GPT-3.5 Turbo和其他小模型,稍弱于GPT-4o。在最新的LMSYS盲測競技場排名中,GPT-4o mini還取得了與GPT-4o并列第一的好成績,連OpenAI的CEO Sam Altman也難掩激動的心情,在社交媒體平臺上發(fā)文稱,“我們從未對任何一項(xiàng)評估感到如此興奮?!?/p>
除了優(yōu)異的性能,OpenAI還拿出了低價殺手锏。7月18日上線時,OpenAI宣布GPT-4o mini的定價為每百萬輸入token15美分和每百萬輸出token60美分,比GPT-3.5 Turbo便宜60%以上。7月24日,OpenAI再次宣布,從即日起至9月23日,免費(fèi)為4級、5級用戶提供GPT-4o mini微調(diào)服務(wù),每天限制200萬token,超過的部分按照每100萬token3美元收費(fèi)。OpenAI稱:“我們期待GPT-4o mini將擴(kuò)大人工智能的應(yīng)用范圍,使人工智能更加實(shí)惠。”
平安證券研報認(rèn)為,GPT-4omini是價格顯著下降的新一代入門級別人工智能“小模型”,兼具性能與性價比。當(dāng)前全球范圍內(nèi)的大模型逐漸呈現(xiàn)由單方面的性能角逐,轉(zhuǎn)向性能與實(shí)用性并重的發(fā)展趨勢。大模型能力達(dá)到一定水平時必然會走向應(yīng)用,大模型廠商通過提升其產(chǎn)品性價比,助推下游應(yīng)用端的推廣部署,有望加速大模型產(chǎn)業(yè)鏈商業(yè)閉環(huán)的形成。
在GPT-4o mini之后發(fā)布的蘋果DCLM模型同樣引人矚目,DCLM全面開源了代碼、權(quán)重、訓(xùn)練流程及數(shù)據(jù)集。DCLM分為14億和70億參數(shù)兩種規(guī)模,其70億參數(shù)版本超越了Mistral-7B ,性能接近Llama 3、Gemma。在MMLU(5-shot)基準(zhǔn)測試中,DCLM-7B的準(zhǔn)確率為63.7%。根據(jù)研究人員的說法,這一性能比此前最先進(jìn)的開放數(shù)據(jù)語言模型MAP-Neo提高了6.6%,并減少了40%的計算量。更重要的是,這一結(jié)果超越了準(zhǔn)確率為62.7%的Mistral-7B-v0.3,并接近于準(zhǔn)確率為64.3%的Gemma 8B、66.2%的Llama3 8B和69.9%的Phi-3 7B。
比起“越大越好”,蘋果更傾向于走小模型路線。今年4月,蘋果公布的小模型家族四款預(yù)訓(xùn)練的大模型OpenELM,體量極小,彼時已在朝著“讓人工智能在蘋果設(shè)備上本地運(yùn)行”目標(biāo)邁進(jìn)。
6月,蘋果曾透露自己的AI發(fā)展路線圖,計劃把小模型順利嵌進(jìn)移動裝備,不僅能達(dá)到“更快速、更安全”的目的,還一舉解決了移動端設(shè)備與模型融合的終極難題。
Mistral NeMo是Mistral AI與NVIDIA合作構(gòu)建的,該模型經(jīng)過先進(jìn)的微調(diào)和對準(zhǔn)階段,在遵循精確指令、推理、處理多輪對話和生成代碼方面表現(xiàn)優(yōu)異。據(jù)了解,Mistral NeMo主要面向企業(yè)環(huán)境,目的是讓企業(yè)在不需要大量云資源的情況下實(shí)施人工智能解決方案。
在接受Venturebeat采訪時,英偉達(dá)應(yīng)用深度學(xué)習(xí)研究副總裁 Bryan Catanzaro 詳細(xì)闡述了小型模型的優(yōu)勢。他說:“小型模型更容易獲取和運(yùn)行,可以有不同的商業(yè)模式,因?yàn)槿藗兛梢栽诩抑凶约旱南到y(tǒng)上運(yùn)行它們。”
大模型進(jìn)入下半場,從技術(shù)卷到應(yīng)用,市場對于更易本地部署的高效率、低成本模型越來越感興趣,這背后折射了對安全性、隱私性以及高效率、高性價比的渴望。
行業(yè)分析師認(rèn)為,AI部署有了一個明顯的新趨勢,即可以在本地硬件上高效運(yùn)行的模型,正在打消許多企業(yè)大規(guī)模采用AI方案的擔(dān)憂,比如數(shù)據(jù)隱私、延遲以及高成本等問題?!斑@可能會使競爭更加公平,資源有限的小企業(yè)也將獲得AI模型的加持,從而彌合與大企業(yè)之間先天的差距?!?/p>
入局小模型賽道背后
AI巨頭們?yōu)楹渭娂婇_辟小模型賽道?部分或出于成本因素的考量。
大模型的開發(fā)和運(yùn)行成本高昂,即使像OpenAI這樣的巨頭也難以負(fù)擔(dān)得起。
近日,有知情人士分析稱“OpenAI今年可能會虧損50億美元,面臨著在12個月內(nèi)資金耗盡的風(fēng)險”。截至今年3月,OpenAl花費(fèi)近40億美元租用微軟的服務(wù)器,以運(yùn)行ChatGPT及其底層大語言模型(LLM)。除了運(yùn)行ChatGPT之外,OpenAl包括數(shù)據(jù)費(fèi)用在內(nèi)的培訓(xùn)成本今年可能會飆升至30億美元。據(jù)知情人士透露,去年,OpenAl加快了對新AI的訓(xùn)練,速度超過了最初的計劃,OpenAl原本計劃在這類成本上花費(fèi)約8億美元,但最終的支出要多得多。
相較之下,小模型成本低、響應(yīng)速度快,而且可以本地化運(yùn)行,更能適應(yīng)個性化、精準(zhǔn)化的使用需求。業(yè)內(nèi)人士表示:“在全球AI硬件供不應(yīng)求的前提下,小模型意味著更低的部署和訓(xùn)練成本,其產(chǎn)出效果足以應(yīng)對一些特定任務(wù)?!?/p>
有國內(nèi)AI企業(yè)相關(guān)業(yè)務(wù)負(fù)責(zé)人告訴21世紀(jì)經(jīng)濟(jì)報道記者,小參數(shù)規(guī)??梢源蠓?jié)省推理成本,模型訓(xùn)練與調(diào)整所需的硬件成本遠(yuǎn)遠(yuǎn)低于大模型,成熟開發(fā)者甚至可以低成本訓(xùn)練垂直模型,這些操作的成本都遠(yuǎn)低于大模型。
OpenAI創(chuàng)始成員、特斯拉前AI高級總監(jiān)Andrej Karpathy最近的預(yù)測頗有代表性,他提出,生成式模型的尺寸競爭將會逆轉(zhuǎn),比拼誰的模型更小、更智能。
在Andrej Karpathy的解釋中,當(dāng)前大模型如此之大,是因?yàn)橛?xùn)練期間仍然非常浪費(fèi),雖然大模型在記憶方面非常出色,但這也意味著大模型記住了大量無關(guān)緊要的細(xì)節(jié),而那些內(nèi)容本不應(yīng)該在特定問題中反復(fù)被調(diào)用。
對于小模型來說,訓(xùn)練目標(biāo)變得更簡單、直接、高效,讓AI更直接地學(xué)到更有用的信息。
不過,大模型與小模型并非“二選一”,他們的發(fā)展路線仍然有著相互借鑒的意義。
Andrej Karpathy稱:“模型必須先變大,然后才能變小。因?yàn)槲覀冃枰竽P蛯?shù)據(jù)重構(gòu)、塑造成理想的形式,一個模型幫助生成下一個模型的訓(xùn)練數(shù)據(jù),逐漸得到完美的訓(xùn)練集,再喂給小模型,而后者不需要完全記住所有的知識,只是偶爾需要查找一些東西以確保準(zhǔn)確。”
李彥宏也曾在百度AI開發(fā)者大會Create 2024上表示,未來大型的AI原生應(yīng)用基本都是Moe架構(gòu),即大小模型的混用。李彥宏還稱,通過大模型壓縮蒸餾出一個基礎(chǔ)模型,然后再用數(shù)據(jù)去訓(xùn)練,比從頭開始訓(xùn)練小模型的效果要好很多,比基于開源模型訓(xùn)練出來的模型效果更好,速度更快,成本更低。