阿里云上線AI視頻生成工具Live Portait:可一鍵讓照片開口說話 媲美真人
快科技8月16日消息,阿里云推出數(shù)字人視頻生成工具Live Portait,上傳一張照片和一段文本或語(yǔ)音即可生成一段開口說話的數(shù)字人視頻。
該功能可應(yīng)用于視頻直播、聊天機(jī)器人、企業(yè)營(yíng)銷等場(chǎng)景。目前,該工具已在魔搭社區(qū)創(chuàng)空間開放體驗(yàn)。
自對(duì)話大模型和AI繪畫模型相繼火熱后,業(yè)界對(duì)生成式AI的研究逐步朝更多模態(tài)的方向演進(jìn),AI視頻生成便是熱門技術(shù)之一。該技術(shù)可將文本或音頻等信息轉(zhuǎn)換為面部運(yùn)動(dòng)信息,進(jìn)而驅(qū)動(dòng)生成照片人物形象的動(dòng)畫,能有效降低視頻拍攝和制作門檻。
此次上線的Live Portait工具由運(yùn)動(dòng)模塊和生成模塊組成,其采用阿里云自研的口型預(yù)測(cè)算法,生成的口型準(zhǔn)確度相比傳統(tǒng)方法大幅提高;在訓(xùn)練階段,增加了姿態(tài)的顯式控制,無需底板視頻也可以生成任意動(dòng)作的視頻,大幅提升數(shù)字人說話的真實(shí)感。
此外,通過眼神主動(dòng)控制技術(shù),Live Portait可以為眼球增加一些自然運(yùn)動(dòng),使得生成結(jié)果在觀感上更接近真人效果。據(jù)介紹,Live Portait相關(guān)技術(shù)已被CVPR、ICCV等國(guó)際AI頂會(huì)收錄。
根據(jù)魔搭社區(qū)上的信息顯示,在Live Portait上傳照片后,用戶可選擇文本驅(qū)動(dòng)和音頻驅(qū)動(dòng)兩種方式,文本驅(qū)動(dòng)模式下,該工具提供了普通話、英語(yǔ)、粵語(yǔ)、童聲等28種聲音。此外,Live Portait還提供了輕量模型選擇,幫助用戶更快速生成視頻。
該工具算法負(fù)責(zé)人張邦表示:“ Live Portait集成了團(tuán)隊(duì)多項(xiàng)自研創(chuàng)新技術(shù),例如僅需單張圖片就能生成逼真的面部動(dòng)畫,突破了傳統(tǒng)對(duì)抗生成網(wǎng)絡(luò)的局限。隨著技術(shù)的進(jìn)一步迭代,圖生視頻有巨大的應(yīng)用空間,有望成為企業(yè)降本增效的生產(chǎn)工具。”
據(jù)悉,該團(tuán)隊(duì)研究方向涵蓋數(shù)字人、3D模型AI生成、高真實(shí)感渲染、自然人機(jī)交互等領(lǐng)域,目前已發(fā)表50多篇國(guó)際頂會(huì)論文。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請(qǐng)來信告知我們刪除。郵箱:business@qudong.com



