Sora文生視頻火爆出圈！清華大學(xué)公布文生視頻專利

來(lái)源：快科技編輯：非小米時(shí)間：2024-02-20 21:33人閱讀

快科技2月20日消息，2月16日，OpenAI發(fā)布其首款文生視頻大模型Sora。

Sora可根據(jù)文字提示生成60秒視頻，輸出視頻堪比影視CG，一經(jīng)發(fā)布火爆出圈。

據(jù)國(guó)家知識(shí)產(chǎn)權(quán)局網(wǎng)站顯示，2月2日，清華大學(xué)申請(qǐng)的“一種定制化多主體文生視頻方法、裝置、設(shè)備及介質(zhì)”專利公布。

專利摘要顯示，該申請(qǐng)?zhí)峁┮环N定制化多主體文生視頻方法、裝置、設(shè)備及介質(zhì)，涉及神經(jīng)網(wǎng)絡(luò)技術(shù)領(lǐng)域。

申請(qǐng)包括：獲取多個(gè)主體分別對(duì)應(yīng)的主體文本表述以及主體圖像；基于多個(gè)主體分別對(duì)應(yīng)的主體文本表述以及主體圖像，獲取混合文本以及組合圖像。

將混合文本以及組合圖像輸入文生視頻模型，生成第二噪聲預(yù)測(cè)值，并基于第二噪聲預(yù)測(cè)值與組合圖像，獲取第二損失和第三損失；基于第一損失、第二損失與第三損失，對(duì)文生視頻模型進(jìn)行優(yōu)化，得到優(yōu)化的文生視頻模型。

該申請(qǐng)通過(guò)多種損失對(duì)文生視頻模型的參數(shù)進(jìn)行優(yōu)化，使優(yōu)化的模型基于文本描述生成視頻中的圖像時(shí)，文本描述與定制化主體保持一致，且在每個(gè)主體在生成過(guò)程中的特征不會(huì)發(fā)生混淆的同時(shí)消除合成痕跡。

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱：business@qudong.com