爆火“視頻版ControlNet”開源了:靠提示詞精準(zhǔn)換畫風(fēng)
“視頻版ControlNet”來(lái)了!
讓藍(lán)衣戰(zhàn)神秒變迪士尼公舉:

視頻處理前后,除了畫風(fēng)以外,其他都不更改。
女孩說(shuō)話的口型都保持一致。

正在插劍的姜文,也能“下一秒”變猩球崛起了。

這就是由全華人團(tuán)隊(duì)打造的最新視頻處理算法CoDeF,發(fā)布才幾天,迅速在網(wǎng)上爆火。
網(wǎng)友們看了直呼:
這一天天的,虛實(shí)分辨越來(lái)越難了!
只需要自己拍點(diǎn)東西,然后覆蓋上去,就能變成各種各樣的動(dòng)畫了。
有人說(shuō),只需給它一年時(shí)間,就能被用在電影制作上了。
這馬上引來(lái)其他人的肯定:技術(shù)發(fā)展真的非常瘋狂、非常快。
目前,團(tuán)隊(duì)已將這一方法在GitHub上開源。
姿勢(shì)不變,畫風(fēng)“皮套”隨便換
之所以會(huì)被稱為是“視頻版ControlNet”,主要原因在于CoDeF能夠?qū)υ曨l做到精準(zhǔn)控制。
(ControlNet實(shí)現(xiàn)了根據(jù)提示詞精準(zhǔn)控制圖像元素改變,如人物動(dòng)作、圖像結(jié)構(gòu)等)
根據(jù)給到的提示詞,它僅改變視頻的畫風(fēng),而且是針對(duì)完整視頻。
比如輸入“Chinese ink painting”,風(fēng)景紀(jì)錄片能秒變國(guó)風(fēng)水墨大作。

包括水流也能很好跟蹤,整個(gè)流體動(dòng)向都沒(méi)有被改變。

甚至一大片穗子,在原視頻里怎么擺動(dòng),改變畫風(fēng)后頻率和幅度也如出一轍。

在畫風(fēng)改變上,CoDeF也做了很多細(xì)節(jié)處理,讓效果更加逼真合理。
“由春入冬”后,原本有漣漪的河流靜止了,天空中的云彩被換成了太陽(yáng),更加符合冬日景象。

霉霉變成魔法少女后,耳環(huán)被換成了發(fā)光寶石,手里的蘋果也換成了魔法球。

這樣一來(lái),讓電影角色一鍵變老也簡(jiǎn)單了許多。
皺紋可以“悄無(wú)聲息”上臉,其他一切都沒(méi)有變化。

所以,CoDeF是怎么實(shí)現(xiàn)的呢?
可跟蹤水和煙霧,跨幀一致性更強(qiáng)
CoDeF是英文“the content deformation field”的縮寫,即作者在此提出了一種叫做內(nèi)容形變場(chǎng)的新方法,來(lái)用于視頻風(fēng)格遷移任務(wù)。
比起靜態(tài)的圖像風(fēng)格遷移,這種任務(wù)的復(fù)雜點(diǎn)在于時(shí)間序列上的一致性和流暢度。
比如處理水、煙霧這種元素,兩幀畫面之間的一致性非常重要。
在此,作者“靈機(jī)一動(dòng)”,提出用圖片算法來(lái)直接解決視頻任務(wù)。
他們只在一張圖像上部署算法,再將圖像-圖像的轉(zhuǎn)換,提升為視頻-視頻的轉(zhuǎn)換,將關(guān)鍵點(diǎn)檢測(cè)提升為關(guān)鍵點(diǎn)跟蹤,而且不需要任何訓(xùn)練。
這樣一來(lái),相較于傳統(tǒng)方法,能夠?qū)崿F(xiàn)更好的跨幀一致性,甚至跟蹤非剛性物體。
具體而言,CoDeF將輸入視頻分解為2D內(nèi)容規(guī)范場(chǎng)(canonical content field)和3D時(shí)間形變場(chǎng)(temporal deformation field):
前者用于聚合整個(gè)視頻中的靜態(tài)內(nèi)容;后者則負(fù)責(zé)記錄圖像沿時(shí)間軸的每個(gè)單獨(dú)幀的轉(zhuǎn)換過(guò)程。
利用MLP(多層感知器),每個(gè)場(chǎng)都用多分辨率2D或3D哈希表來(lái)表示。
在此,作者特意引入了正則化,來(lái)保證內(nèi)容規(guī)范場(chǎng)能夠繼承原視頻中的語(yǔ)義信息(比如物體的形狀)。
如上圖所示,這一系列設(shè)計(jì)使得CoDeF可以自動(dòng)支持各種圖像算法直接應(yīng)用于視頻處理——
也就是只需利用相應(yīng)算法提取出來(lái)一張規(guī)范圖像,然后通過(guò)時(shí)間形變場(chǎng)沿著時(shí)間軸傳播結(jié)果即可。
比如,給CoDeF“套上”本用于圖片處理的ControlNet,就可以完成視頻風(fēng)格的“翻譯”(也就是我們開頭和第一段看的那一堆效果):
“套上”分割一切算法SAM,我們就能輕松做到視頻的對(duì)象跟蹤,完成動(dòng)態(tài)的分割任務(wù):
“套上”Real-ESRGAN,則給視頻做超分也是信手拈來(lái)……
整個(gè)過(guò)程非常輕松,不需要對(duì)待操作視頻進(jìn)行任何調(diào)整或處理。
不僅能處理,還能保證效果,即良好的時(shí)間一致性和合成質(zhì)量。
如下圖所示,相比去年誕生的Layered neural atlas算法,CoDeF能夠呈現(xiàn)非常忠于原視頻的細(xì)節(jié),既沒(méi)有變形也無(wú)破壞。
而在根據(jù)文本提示修改視頻風(fēng)格的任務(wù)對(duì)比中,CoDeF全部表現(xiàn)突出,不僅最匹配所給要求,也有著更高的完成度。
跨幀一致性則如下圖所示:
一位一作剛本科畢業(yè)
這項(xiàng)研究由香港科技大學(xué)、螞蟻團(tuán)隊(duì)、浙江大學(xué)CAD&CG實(shí)驗(yàn)室共同帶來(lái)。
共同一作有三位,分別是歐陽(yáng)豪、Yujun Shen和Yuxi Xiao。
其中歐陽(yáng)豪為港科大博士,師從陳啟峰(本文通訊作者之一);本科導(dǎo)師為賈佳亞。曾在MSRA、商湯、騰訊優(yōu)圖實(shí)驗(yàn)室實(shí)習(xí)過(guò),現(xiàn)在正在谷歌實(shí)習(xí)。
另一位是Qiuyu Wang。Yujun Shen是通訊作者之一。
他是螞蟻研究所的高級(jí)研究科學(xué)家,主管交互智能實(shí)驗(yàn)室,研究方向?yàn)橛?jì)算機(jī)視覺(jué)和深度學(xué)習(xí),尤其對(duì)生成模型和3D視覺(jué)效果感興趣。

第三位一作為Yuxi Xiao才剛剛從武大本科畢業(yè),今年9月開始在浙大CAD&CG實(shí)驗(yàn)室讀博。
他以一作身份發(fā)表的論文Level-S2fM: Structure from Motion on Neural Level Set of Implicit Surfaces,被CVPR2023接收。
本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com













