21世紀(jì)經(jīng)濟(jì)報道記者孔海麗、實(shí)習(xí)生王甜 北京報道
繼2023年4月首次推出SAM,實(shí)現(xiàn)對圖像的精準(zhǔn)分割后,Meta于北京時間7月30日推出了能夠分割視頻的新模型SAM 2(Segment Anything Model 2)。SAM 2將圖像分割和視頻分割功能整合到一個模型中。所謂“分割”,是指區(qū)別視頻中的特定對象與背景,并可以追蹤目標(biāo)。
SAM 2將圖像分割能力泛化到了視頻領(lǐng)域,其響應(yīng)能力和準(zhǔn)確度是一代的6倍,也是目前最優(yōu)秀的視覺分割模型。Meta AI發(fā)布此版本時強(qiáng)調(diào):“相信我們的數(shù)據(jù)、模型和見解將成為視頻分割和相關(guān)感知任務(wù)的重要里程碑?!?/p>
同日,扎克伯格在與黃仁勛的對談中,透露出更多Meta 的AI進(jìn)展,包括將推出一款基于Llama3.1模型構(gòu)建的名為AI Studio的新工具,允許用戶創(chuàng)建、分享和設(shè)計個性化的AI聊天機(jī)器人,用戶還可以在社交媒體平臺上分享他們的人工智能角色。
“細(xì)分一切”
SAM 2可以識別視頻中的特定對象,并實(shí)時實(shí)現(xiàn)該對象的追蹤與提取,在視頻編輯與特效制作中,可以高效輔助工作。該模型也可以根據(jù)用戶具體訴求,選擇分割某個物體或某個區(qū)域,使控制更加精準(zhǔn)。
與其他模型不同的是,SAM 2擁有對不熟悉物體和圖像的零樣本泛化能力,無需額外訓(xùn)練,只需單擊一幀視頻中的任何物體,即可實(shí)現(xiàn)對目標(biāo)對象的實(shí)時追蹤,快速處理未來每一幀。
除此以外,該模型還可以集成到更大的系統(tǒng)中,它善于從其他智能系統(tǒng)中獲取提示,使系統(tǒng)之間完成協(xié)作。例如,SAM 2能夠在AR/VR穿戴式設(shè)備中選擇用戶注視對象,也可以讀取分割對象的邊界框提示,完成文本提示到視頻圖像分割的轉(zhuǎn)化。
為了訓(xùn)練SAM 2,Meta自己建構(gòu)了一個數(shù)據(jù)引擎——SA-V數(shù)據(jù)集,有效收集大量多樣化的視頻分割數(shù)據(jù)集并利用其去迭代模型。SA-V數(shù)據(jù)集包含5.1萬個視頻和64.3萬個時空分割掩碼(即masklet),是迄今為止最大的數(shù)據(jù)集,收集了47個國家/地區(qū)地理分布各異的真實(shí)世界場景的視頻。SAM 2就在Meta開源的SA-V數(shù)據(jù)集上進(jìn)行訓(xùn)練,為SAM 2提供的注釋包括整個物體、部分物體和物體被遮擋的情況。
SAM 2模型輔助人類標(biāo)注目標(biāo)對象的掩碼,與此同時,SAM 2將標(biāo)注的掩碼傳播到視頻其他幀,生成時空掩碼,接受提示的SAM 2受益于對象在時間維度上的記憶,生成掩碼預(yù)測。如此循環(huán)往復(fù),使SAM 2得到不斷更新。業(yè)內(nèi)觀點(diǎn)認(rèn)為,SAM 2為視覺數(shù)據(jù)提供更快的注釋工具,有望被用來訓(xùn)練下一代計算機(jī)視覺系統(tǒng)。
對于視頻中的動態(tài)物體,SAM 2如何精準(zhǔn)識別呢?Meta為SAM引入了一種記憶機(jī)制。對于視頻,記憶組件可以存儲對象的有關(guān)交互信息和之前處理過的信息,使SAM 2能夠在整個視頻中實(shí)現(xiàn)預(yù)測行為。根據(jù)其提示式設(shè)計理念,如果在其他幀上提供了相關(guān)提示,SAM 2還可以根據(jù)存儲的對象記憶上下文(前后幀)有效地糾正其預(yù)測,顯著減少人工標(biāo)注時間。
Meta官網(wǎng)提供了一個例子,目標(biāo)對象被遮擋或從視野中消失。為了向模型解釋這種新的模式,在SAM 2里新應(yīng)用了“遮擋頭”模型,用于預(yù)測當(dāng)前幀中是否存在目標(biāo)對象,判斷物體是否可見,即使在物體暫時被遮擋時也有助于分割物體,使SAM 2能夠有效地處理遮擋。
不過,當(dāng)遇到長時間遮擋或者場景中有多個相似對象等情況時,SAM 2可能會丟失對物體的跟蹤或是混淆物體。但同時,以上情況可以通過人為干預(yù)提供細(xì)化提示來解決。
盡管Meta自曝了SAM 2的不足,用戶對該模型的未來依然寄予厚望。
在以往的視頻編輯技術(shù)中,視頻摳圖需要一幀一幀地編輯。比如,國內(nèi)明星真人秀節(jié)目數(shù)次遇到的“因某明星個人危機(jī),需重新剪輯全部畫面”問題,可能不再需要視頻剪輯通宵達(dá)旦、連續(xù)加班。
SAM 2的應(yīng)用范圍廣泛,在許多需要實(shí)時反饋的應(yīng)用場景中將發(fā)揮其作用,包括自動駕駛、醫(yī)學(xué)、視頻拍攝剪輯、監(jiān)控等。比如,捕捉動態(tài)對象實(shí)現(xiàn)實(shí)時交互,提高車載計算機(jī)視覺系統(tǒng)的敏銳性;在輔助醫(yī)學(xué)治療中,定位腹腔鏡攝像機(jī)錨定的區(qū)域;在追蹤攝影中,幫助無人機(jī)鏡頭跟隨追蹤瀕危動物;在機(jī)場、車站人流密度大的區(qū)域?qū)崟r監(jiān)控人群,預(yù)警異常情況;也為視頻內(nèi)容博主提供了更多視頻創(chuàng)意創(chuàng)作的可能性。
更好的開源生態(tài)
SAM 2也為新模型的出現(xiàn)埋下伏筆。SAM 2的分割生成結(jié)果可以輸出給其他AI系統(tǒng)(例如現(xiàn)代視頻生成模型),SAM 2本身也可以接受其他AI系統(tǒng)的輸入提示,實(shí)現(xiàn)與目標(biāo)對象的實(shí)時交互,比如,應(yīng)用于直播時的AI公眾形象搭建,自動駕駛路況分析等。
為了使學(xué)術(shù)界能夠在目前的基礎(chǔ)上繼續(xù)研究,Meta公開發(fā)布了預(yù)先訓(xùn)練的SAM 2模型、SA-V數(shù)據(jù)集、演示和代碼。值得注意的是,盡管需要巨大算力支持,SAM 2仍堅持開源,并允許廣大用戶免費(fèi)使用(在Amazon SageMaker平臺上托管)。這讓Meta龐大的透明開源生態(tài)又添一員。
近期,扎克伯格多番強(qiáng)調(diào)了人工智能開源的意義,他曾撰寫的長文中表示:“開源人工智能比任何其他現(xiàn)代技術(shù)都更具有潛力,可以提高人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量,同時還能加速經(jīng)濟(jì)增長并推動突破性的醫(yī)學(xué)和科學(xué)研究。”
“當(dāng)今大多數(shù)領(lǐng)先的科技公司和科學(xué)研究都是建立在開源軟件之上的。最重要的是,開源人工智能代表了世界上利用這項技術(shù)為每個人創(chuàng)造最大經(jīng)濟(jì)機(jī)會和安全的最佳機(jī)會?!痹瞬裱a(bǔ)充說。
在與黃仁勛的對談中,扎克伯格也再次表達(dá)了“希望下一代計算機(jī)發(fā)展回到開放生態(tài)系統(tǒng)獲勝的局勢”。