從“摳圖”到“摳視頻” Meta上新AI工具SAM 2

2024年07月31日 20:15 21世紀(jì)經(jīng)濟(jì)報道 21財經(jīng)APP 孔海麗

AI視覺編輯的“福音”。

21世紀(jì)經(jīng)濟(jì)報道記者孔海麗、實(shí)習(xí)生王甜北京報道

繼2023年4月首次推出SAM，實(shí)現(xiàn)對圖像的精準(zhǔn)分割后，Meta于北京時間7月30日推出了能夠分割視頻的新模型SAM 2（Segment Anything Model 2）。SAM 2將圖像分割和視頻分割功能整合到一個模型中。所謂“分割”，是指區(qū)別視頻中的特定對象與背景，并可以追蹤目標(biāo)。

SAM 2將圖像分割能力泛化到了視頻領(lǐng)域，其響應(yīng)能力和準(zhǔn)確度是一代的6倍，也是目前最優(yōu)秀的視覺分割模型。Meta AI發(fā)布此版本時強(qiáng)調(diào)：“相信我們的數(shù)據(jù)、模型和見解將成為視頻分割和相關(guān)感知任務(wù)的重要里程碑?！?/p>

同日，扎克伯格在與黃仁勛的對談中，透露出更多Meta 的AI進(jìn)展，包括將推出一款基于Llama3.1模型構(gòu)建的名為AI Studio的新工具，允許用戶創(chuàng)建、分享和設(shè)計個性化的AI聊天機(jī)器人，用戶還可以在社交媒體平臺上分享他們的人工智能角色。

“細(xì)分一切”

SAM 2可以識別視頻中的特定對象，并實(shí)時實(shí)現(xiàn)該對象的追蹤與提取，在視頻編輯與特效制作中，可以高效輔助工作。該模型也可以根據(jù)用戶具體訴求，選擇分割某個物體或某個區(qū)域，使控制更加精準(zhǔn)。

與其他模型不同的是，SAM 2擁有對不熟悉物體和圖像的零樣本泛化能力，無需額外訓(xùn)練，只需單擊一幀視頻中的任何物體，即可實(shí)現(xiàn)對目標(biāo)對象的實(shí)時追蹤，快速處理未來每一幀。

除此以外，該模型還可以集成到更大的系統(tǒng)中，它善于從其他智能系統(tǒng)中獲取提示，使系統(tǒng)之間完成協(xié)作。例如，SAM 2能夠在AR/VR穿戴式設(shè)備中選擇用戶注視對象，也可以讀取分割對象的邊界框提示，完成文本提示到視頻圖像分割的轉(zhuǎn)化。

為了訓(xùn)練SAM 2，Meta自己建構(gòu)了一個數(shù)據(jù)引擎——SA-V數(shù)據(jù)集，有效收集大量多樣化的視頻分割數(shù)據(jù)集并利用其去迭代模型。SA-V數(shù)據(jù)集包含5.1萬個視頻和64.3萬個時空分割掩碼（即masklet），是迄今為止最大的數(shù)據(jù)集，收集了47個國家/地區(qū)地理分布各異的真實(shí)世界場景的視頻。SAM 2就在Meta開源的SA-V數(shù)據(jù)集上進(jìn)行訓(xùn)練，為SAM 2提供的注釋包括整個物體、部分物體和物體被遮擋的情況。

SAM 2模型輔助人類標(biāo)注目標(biāo)對象的掩碼，與此同時，SAM 2將標(biāo)注的掩碼傳播到視頻其他幀，生成時空掩碼，接受提示的SAM 2受益于對象在時間維度上的記憶，生成掩碼預(yù)測。如此循環(huán)往復(fù)，使SAM 2得到不斷更新。業(yè)內(nèi)觀點(diǎn)認(rèn)為，SAM 2為視覺數(shù)據(jù)提供更快的注釋工具，有望被用來訓(xùn)練下一代計算機(jī)視覺系統(tǒng)。

對于視頻中的動態(tài)物體，SAM 2如何精準(zhǔn)識別呢？Meta為SAM引入了一種記憶機(jī)制。對于視頻，記憶組件可以存儲對象的有關(guān)交互信息和之前處理過的信息，使SAM 2能夠在整個視頻中實(shí)現(xiàn)預(yù)測行為。根據(jù)其提示式設(shè)計理念，如果在其他幀上提供了相關(guān)提示，SAM 2還可以根據(jù)存儲的對象記憶上下文（前后幀）有效地糾正其預(yù)測，顯著減少人工標(biāo)注時間。

Meta官網(wǎng)提供了一個例子，目標(biāo)對象被遮擋或從視野中消失。為了向模型解釋這種新的模式，在SAM 2里新應(yīng)用了“遮擋頭”模型，用于預(yù)測當(dāng)前幀中是否存在目標(biāo)對象，判斷物體是否可見，即使在物體暫時被遮擋時也有助于分割物體，使SAM 2能夠有效地處理遮擋。

不過，當(dāng)遇到長時間遮擋或者場景中有多個相似對象等情況時，SAM 2可能會丟失對物體的跟蹤或是混淆物體。但同時，以上情況可以通過人為干預(yù)提供細(xì)化提示來解決。

盡管Meta自曝了SAM 2的不足，用戶對該模型的未來依然寄予厚望。

在以往的視頻編輯技術(shù)中，視頻摳圖需要一幀一幀地編輯。比如，國內(nèi)明星真人秀節(jié)目數(shù)次遇到的“因某明星個人危機(jī)，需重新剪輯全部畫面”問題，可能不再需要視頻剪輯通宵達(dá)旦、連續(xù)加班。

SAM 2的應(yīng)用范圍廣泛，在許多需要實(shí)時反饋的應(yīng)用場景中將發(fā)揮其作用，包括自動駕駛、醫(yī)學(xué)、視頻拍攝剪輯、監(jiān)控等。比如，捕捉動態(tài)對象實(shí)現(xiàn)實(shí)時交互，提高車載計算機(jī)視覺系統(tǒng)的敏銳性；在輔助醫(yī)學(xué)治療中，定位腹腔鏡攝像機(jī)錨定的區(qū)域；在追蹤攝影中，幫助無人機(jī)鏡頭跟隨追蹤瀕危動物；在機(jī)場、車站人流密度大的區(qū)域?qū)崟r監(jiān)控人群，預(yù)警異常情況；也為視頻內(nèi)容博主提供了更多視頻創(chuàng)意創(chuàng)作的可能性。

更好的開源生態(tài)

SAM 2也為新模型的出現(xiàn)埋下伏筆。SAM 2的分割生成結(jié)果可以輸出給其他AI系統(tǒng)（例如現(xiàn)代視頻生成模型），SAM 2本身也可以接受其他AI系統(tǒng)的輸入提示，實(shí)現(xiàn)與目標(biāo)對象的實(shí)時交互，比如，應(yīng)用于直播時的AI公眾形象搭建，自動駕駛路況分析等。

為了使學(xué)術(shù)界能夠在目前的基礎(chǔ)上繼續(xù)研究，Meta公開發(fā)布了預(yù)先訓(xùn)練的SAM 2模型、SA-V數(shù)據(jù)集、演示和代碼。值得注意的是，盡管需要巨大算力支持，SAM 2仍堅持開源，并允許廣大用戶免費(fèi)使用（在Amazon SageMaker平臺上托管）。這讓Meta龐大的透明開源生態(tài)又添一員。

近期，扎克伯格多番強(qiáng)調(diào)了人工智能開源的意義，他曾撰寫的長文中表示：“開源人工智能比任何其他現(xiàn)代技術(shù)都更具有潛力，可以提高人類的生產(chǎn)力、創(chuàng)造力和生活質(zhì)量，同時還能加速經(jīng)濟(jì)增長并推動突破性的醫(yī)學(xué)和科學(xué)研究。”

“當(dāng)今大多數(shù)領(lǐng)先的科技公司和科學(xué)研究都是建立在開源軟件之上的。最重要的是，開源人工智能代表了世界上利用這項技術(shù)為每個人創(chuàng)造最大經(jīng)濟(jì)機(jī)會和安全的最佳機(jī)會?！痹瞬裱a(bǔ)充說。

在與黃仁勛的對談中，扎克伯格也再次表達(dá)了“希望下一代計算機(jī)發(fā)展回到開放生態(tài)系統(tǒng)獲勝的局勢”。

從“摳圖”到“摳視頻” Meta上新AI工具SAM 2

2024年07月31日 20:15 21世紀(jì)經(jīng)濟(jì)報道 21財經(jīng)APP 孔海麗

“細(xì)分一切”

更好的開源生態(tài)

相關(guān)新聞

熱文排行

財經(jīng)日歷

數(shù)讀

每日智庫看點(diǎn)

關(guān)注我們

公告