
周城雄(中國科學院科技戰略咨詢研究院研究員、數智創新與治理研究中心副主任)
2026年1月5日,美國拉斯維加斯CES展會上,英偉達CEO黃仁勛出人意料地提前發布了下一代AI芯片平臺“Rubin”,打破其一貫在3月GTC大會集中發布新品的傳統。這一舉動釋放出一個關鍵信號:全球AI競賽正從“訓練主導”全面轉向“推理驅動”,這不僅是技術路線的演進,更是整個AI產業生態、基礎設施布局乃至國家間科技競爭格局的重大轉折點。
過去數年,大模型訓練是AI發展的核心焦點。以GPT、Llama、Claude等為代表的大語言模型(LLM)不斷刷新參數規模,對算力的需求呈指數級增長,催生了以英偉達H100、Blackwell為代表的高性能GPU集群建設熱潮。然而,訓練只是AI生命周期的一環。真正決定AI能否落地、能否創造經濟價值的關鍵,在于推理——即模型在實際應用場景中對用戶輸入進行實時響應的能力。
推理場景具有高頻、低延遲、高并發、成本敏感等特點。例如,一個智能客服系統每天可能處理數百萬次用戶查詢,每一次都需要在毫秒級內完成推理;自動駕駛車輛則需在復雜環境中持續進行多模態推理以保障安全。這些需求對硬件效率、能耗比、系統協同性提出了遠高于訓練階段的要求。
英偉達此次發布的Rubin平臺,正是為推理時代量身打造。據官方披露,Rubin在推理token成本上最高可降低10倍,同時通過集成CPU、GPU、DPU、SuperNIC、交換芯片等六顆芯片,構建了“極端協同”的全棧系統。尤為關鍵的是,Rubin同步推出了專為推理設計的“上下文存儲平臺”,用于高效管理KV Cache(鍵值緩存),避免重復計算,顯著提升推理效率。這表明,AI基礎設施的競爭已從單一芯片性能,升級為系統級工程能力的比拼。
Rubin平臺等產品的亮相背后,是全球AI發展的“馬太效應”正在顯現。一方面,擁有強大算力和先進推理系統的國家與企業,將更快實現AI商業化落地,形成數據—模型—應用—收入的正向循環;另一方面,缺乏底層基礎設施能力的參與者,將越來越依賴外部平臺,陷入“應用繁榮但根基脆弱”的困境。
面對全球AI競賽向推理階段的加速演進,對中國AI產業既是挑戰也是機遇。盡管近年來中國在大模型研發上取得顯著進展,涌現出通義、文心、混元等優秀模型,但在底層硬件和系統級優化方面仍存在一些短板。目前國產GPU如昇騰、寒武紀等取得一定突破,但在軟件生態、系統協同、能效比等方面仍需進一步提升。
更重要的是,中國AI產業需要加快形成“芯片+網絡+存儲+安全+開發框架”的全棧推理解決方案。當前國內AI基礎設施在對推理場景的深度優化方面,還有很大的發展潛力。例如,KV Cache管理、動態批處理、模型量化壓縮等關鍵技術尚未在主流國產平臺上實現高效集成,若能實現,將有效降低推理成本、推動AI應用的規模化部署。
為此,中國應從三個層面加速準備。首先,強化全棧式AI基礎設施研發。不能僅聚焦于GPU性能追趕,而應考慮秉持“協同設計”理念,推動國產CPU、DPU、高速互連、AI原生存儲等組件的聯合創新。鼓勵芯片企業與阿里云、騰訊云、百度智能云等云廠商深度合作,構建自主可控的推理系統棧。
其次,大力發展推理優化技術與開源生態。應支持高校與企業攻關低比特量化、稀疏化推理、動態批處理、緩存復用等核心技術。同時,需推動建立中文AI推理基準測試體系,引導開發者關注推理效率而非僅參數規模;鼓勵開源社區圍繞國產硬件適配推理框架,降低遷移門檻。
最后,搶占物理AI與邊緣推理新賽道。在機器人、自動駕駛、工業智能等新興領域,中國擁有豐富的應用場景和數據資源。應加快部署面向邊緣端的輕量化推理芯片與開發平臺,支持具身智能、車路協同等創新應用。通過“場景驅動+技術反哺”的模式,倒逼底層硬件與系統軟件的協同進化。
總之,此次CES上,Rubin平臺等AI新產品的發布,不僅是技術迭代的里程碑,更是AI產業范式轉移的宣言書。當AI從“能回答問題”邁向“能理解世界、規劃行動、完成任務”的智能體階段,推理能力將成為衡量國家AI競爭力的關鍵指標。對中國而言,這既是挑戰,也是彎道超車的機遇。產業界需摒棄“唯訓練論”的慣性思維,以系統工程視角重構AI基礎設施,才能更好地在推理時代贏得主動權。

