久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁 > 新聞 > 其他

國產(chǎn)Sora的秘密 藏在這個(gè)清華系大模型團(tuán)隊(duì)中

來源:極客公園   編輯:非小米 時(shí)間:2024-04-28 15:12人閱讀

在視頻 AIGC 領(lǐng)域,出現(xiàn)一個(gè)有力的國產(chǎn)選手。

2024 年,Sora 一直活在聚光燈下。

馬斯克不惜溢美之詞,稱「人類愿賭服輸」;紅衣教主周鴻祎眼中,借助 Sora 人類實(shí)現(xiàn) AGI 將縮減至一兩年。就連賣付費(fèi)課程的微商,也拿「Sora」重新組裝了自己的鐮刀。

這種狂熱的蔓延,從美國到中國,從一級到二級甚至再到三級市場,像漣漪一樣,播散向全世界。

因?yàn)椋诶硐肭闆r下,長視頻生成的底層邏輯,約等于世界模型。十幾秒、幾十秒的視頻中,包含了基礎(chǔ)的圖像處理、空間關(guān)系、物理規(guī)律、因果邏輯等等現(xiàn)實(shí)規(guī)律與知識(shí)的映射。小處看,可以掀翻傳統(tǒng)電影、游戲制作的桌子,大處看,通往通用人工智能,這是關(guān)鍵一步。

同時(shí),在一眾長視頻生成算法中,Sora 的技術(shù)突破是具備革命性的。相比傳統(tǒng)的 Stable Diffusion,Sora 采用的 Diffusion 加 Transformer 架構(gòu),既克服了 Stable Diffusion 擴(kuò)展性的缺失,更是在生成內(nèi)容的準(zhǔn)確性和靈活性上有了質(zhì)的飛躍。

唯一美中不足是,Sora 并非開源算法。

沒了開源,也就沒了復(fù)現(xiàn)的可能;沒了復(fù)現(xiàn)可能,那么哪怕經(jīng)管出身的合伙人睡前讀物變成了《Scalable diffusion models with transformers》,投資經(jīng)理一周跑遍北京、深圳科技產(chǎn)業(yè)園掘地三尺,所有人都不得不承認(rèn)一個(gè)現(xiàn)實(shí),盡管視頻大模型企業(yè)眾多,但或許尚未等到國產(chǎn) Sora 正式發(fā)掘,視頻大模型的淘汰賽就已經(jīng)走到尾聲。

業(yè)內(nèi)「哇聲一片」,一級市場卻空前焦慮。中國 AI 企業(yè),只能眼睜睜看著自己距離 Sora 越來越遠(yuǎn)嗎?

01「國產(chǎn) Sora」來了?場上 VC 幾乎絕望之際,誰也沒曾想到,國產(chǎn) Sora 的秘密,最先揭曉謎底的,竟是成立僅一年多的大模型企業(yè)——生數(shù)科技。

近日,生數(shù)科技聯(lián)合清華大學(xué)宣布推出國內(nèi)首個(gè)基于純自研 U-ViT 架構(gòu)的視頻大模型「Vidu」,支持一鍵生成長達(dá) 16 秒、分辨率高達(dá) 1080p 的高清視頻內(nèi)容。從官宣的短片來看,Vidu 在多鏡頭生成、時(shí)間和空間一致性、模擬真實(shí)物理世界以及想象力等方面,幾乎與 Sora 齊平。

而相比其他國產(chǎn)「類 Sora」的工作,Vidu 一個(gè)最明顯的特點(diǎn)就是,畫面時(shí)間足夠長。

一直以來,十秒幾乎是「國產(chǎn) Sora」的一個(gè)生死線。要想達(dá)到或者超過十秒,則意味著對訓(xùn)練素材的積累,以及如何解決算法記憶消失問題,需要做出深厚的研究。

這是 Vidu 放出的另一段官方視頻,從視頻中可以看到,白色老式 SUV 在山坡土路行駛中,滾動(dòng)的輪胎會(huì)揚(yáng)起灰塵,軌跡自然連貫;周圍樹林,也在陽光的照射下,遵循真實(shí)世界中的投射規(guī)律,留下光影斑駁。

形成對比的是,保證視頻時(shí)長的前提下,大部分國產(chǎn)「類 Sora」都很難保持人物和場景的連貫,同時(shí)也難以做到真實(shí)地遵循物理世界規(guī)律,比如吃漢堡會(huì)留下咬痕、汽車開過會(huì)留下尾氣與灰塵的痕跡。

根據(jù)行業(yè)人士透露,目前市面上之前的一些「類 Sora」模型,做到長時(shí)長的路徑,其實(shí)大多是通過插幀的方式,在視頻的每兩幀畫面中增加一幀或多幀來提升視頻的長度。

這種方法就需要對視頻進(jìn)行逐幀處理,通過插入額外的幀來改善視頻長度和質(zhì)量。整體畫面就會(huì)顯得僵硬而又緩慢。

但生數(shù)科技的作用原理明顯不同。基于單一模型完全端到端生成實(shí)現(xiàn)底層算法,直觀上,我們可以看到「一鏡到底」的絲滑感,視頻從頭到尾連續(xù)生成,沒有插幀痕跡。

另外,還有一些工具類的長視頻采用了「換湯不換藥」的做法。底層集合了許多其他模型工作,比如先基于 Stable Diffusion、Midjourney 生成單張畫面,再圖生 4s 短視頻,再做拼接。也就是說,想要一個(gè)十幾秒長視頻,那就把多個(gè) 4s 短視頻拼在一起就好,不僅整體的畫面流暢度會(huì)大打折扣,底層也并沒有實(shí)現(xiàn)長視頻生成能力的突破。

除了生成時(shí)長有了質(zhì)的突破,從官宣視頻中我們還可以看到,Vidu 還做到了畫面連續(xù)流暢,且有細(xì)節(jié)、邏輯連貫。盡管都是運(yùn)動(dòng)畫面,但幾乎不會(huì)出現(xiàn)穿模、鬼影、運(yùn)動(dòng)不符合現(xiàn)實(shí)規(guī)律的問題。

做一個(gè)簡單對比,以下是某熱門視頻大模型團(tuán)隊(duì)的視頻生成效果截圖,雖然整體視頻長度才四秒,但僅僅一個(gè)準(zhǔn)備跳躍的動(dòng)作指令,就足以讓畫面里的小貓變成 6 只腳,或者三根尾巴的「鬼影」。

國產(chǎn)Sora的秘密 藏在這個(gè)清華系大模型團(tuán)隊(duì)中

國產(chǎn)Sora的秘密 藏在這個(gè)清華系大模型團(tuán)隊(duì)中

對比如此鮮明,讓人不禁疑惑:為何ChatGPT發(fā)布后,市場馬上涌現(xiàn)一批「達(dá)到 GPT 3.5,逼近 GPT4.0」的大模型產(chǎn)品。同樣是追趕,為什么類 Sora 產(chǎn)品卻如此困難?

答案是,ChatGPT 發(fā)布不久,Meta LLama2 開源,開源平替解決了國產(chǎn) ChatGPT 技術(shù)復(fù)現(xiàn)的燃眉之急。而 Sora 沒有開源,技術(shù)細(xì)節(jié)未公開,這就導(dǎo)致,實(shí)現(xiàn)「國產(chǎn) Sora」就只剩了自研這一條路可以走。

根據(jù) OpenAI 披露的技術(shù)報(bào)告,Sora 核心技術(shù)架構(gòu)背后源自一篇名為《Scalable Diffusion Models with Transformers》的論文,論文提出了一個(gè)將 Diffusion(擴(kuò)散模型)和 Transformer 融合的架構(gòu)——DiT,后面被 Sora 采用。

巧合的是,比 DiT 早兩個(gè)多月,清華團(tuán)隊(duì)就提出了用 Transformer 替代基于 CNN 的 U-Net 的網(wǎng)絡(luò)架構(gòu) U-ViT。從架構(gòu)路線上,兩者并無二致。甚至過程中,還曾出現(xiàn)一個(gè)小插曲,由于發(fā)布時(shí)間更早,當(dāng)年計(jì)算機(jī)視覺頂會(huì) CVPR 2023 收錄了清華大學(xué)的 U-ViT 論文,卻以「缺乏創(chuàng)新」為由拒稿了 Sora 底層使用的 DiT 論文。

生數(shù)科技的創(chuàng)始團(tuán)隊(duì)正是源于清華大學(xué)該論文團(tuán)隊(duì)。公司的 CTO 鮑凡就是該篇論文的第一作者,此次發(fā)布的 Vidu 模型底層采用的就是 U-ViT 架構(gòu)。也就是說,生數(shù)科技并不屬于追逐 Sora 的一員,而是一早就踏在了同一起跑線,甚至是更早。

由此窺見,生數(shù)科技成立時(shí)間雖短,但來頭卻不小。

深扒發(fā)現(xiàn),論人才,其團(tuán)隊(duì)核心成員來自清華大學(xué)人工智能研究院,是國內(nèi)最早開展深度生成式研究的團(tuán)隊(duì)。論技術(shù),團(tuán)隊(duì)多項(xiàng)研究成果被 OpenAI、蘋果、Stability AI 等應(yīng)用于 DALL·E 2、Stable Diffusion 等模型中,是現(xiàn)階段在生成式領(lǐng)域發(fā)表論文成果數(shù)最多的國內(nèi)團(tuán)隊(duì)。論背景,生數(shù)科技已獲得螞蟻集團(tuán)、啟明創(chuàng)投、BV 百度風(fēng)投、字節(jié)系錦秋基金等多家知名機(jī)構(gòu)的認(rèn)可,完成數(shù)億元融資。

而真做到這一切的,為什么是生數(shù)?

02 為什么是生數(shù)科技?最重要的答案或許是,生數(shù)科技早早走對了技術(shù)路線。

與市面上大部分視頻生成算法采用基于 U-Net 卷積架構(gòu)的傳統(tǒng)擴(kuò)散模型不同,生數(shù)科技此次發(fā)布的 Vidu 與 Sora 采用的都是融合架構(gòu)(即上文提到的 U-ViT 與 DiT)。

所謂融合架構(gòu),可以理解為 Diffusion(擴(kuò)散模型)與 Transformer 的融合。

Transformer 架構(gòu)被熟知應(yīng)用于大語言模型,該架構(gòu)的優(yōu)勢在于 scale 特性,參數(shù)量越大,效果越好,而 Diffusion 被常用于傳統(tǒng)視覺任務(wù)(圖像和視頻生成)中。

融合架構(gòu)就是在 Diffusion Model(擴(kuò)散模型)中,用 Transformer 替換常用的 U-Net 卷積網(wǎng)絡(luò),將 Transformer 的可擴(kuò)展性與 Diffusion 模型處理視覺數(shù)據(jù)的天然優(yōu)勢進(jìn)行融合,能在視覺任務(wù)下展現(xiàn)出卓越的涌現(xiàn)能力。

2022 年 9 月,團(tuán)隊(duì)提交了 U-ViT 論文,在全球首次提出將擴(kuò)散模型與 Transformer 融合的架構(gòu)思路。兩個(gè)多月之后推出的 DiT 架構(gòu)同樣采取了這一思路,而后被 Sora 采用。

相比僅在 ImageNet 上做了實(shí)驗(yàn)的 DiT,U-ViT 還在小數(shù)據(jù)集(CIFAR10、CelebA)、ImageNet、圖文數(shù)據(jù)集 MSCOCO 均做了實(shí)驗(yàn)。而且,相比傳統(tǒng)的 Transformer,U-ViT 提出了一項(xiàng)「長連接」的技術(shù),大大提升了訓(xùn)練收斂速度。

之后,團(tuán)隊(duì)繼續(xù)深入。2023 年 3 月,團(tuán)隊(duì)基于 U-ViT 架構(gòu)在大規(guī)模圖文數(shù)據(jù)集 LAION-5B 上訓(xùn)練出近 10 億參數(shù)量模型 UniDiffuser,并將其開源,UniDiffuser 支持圖文模態(tài)間的任意生成和轉(zhuǎn)換。

UniDiffuser 的實(shí)現(xiàn)有一項(xiàng)重要的價(jià)值——首次驗(yàn)證了融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的可擴(kuò)展性(Scaling Law),相當(dāng)于將融合架構(gòu)在大規(guī)模訓(xùn)練任務(wù)中的所有環(huán)節(jié)流程都跑通。

值得一提的是,同為圖文模型,UniDiffuser 比最近才切換至 DiT 架構(gòu)的 Stable Diffusion 3 領(lǐng)先了一年。

不過,雖然都選了融合架構(gòu),但在后續(xù)產(chǎn)品路徑的推進(jìn)上,基于資源等方面的考慮,Sora 團(tuán)隊(duì)選擇「每天基本不睡覺高強(qiáng)度工作了一年」all in 長視頻,生數(shù)科技則選擇從 2D 圖像開始,再進(jìn)一步拓展到 3D 和視頻。

路線沒有對錯(cuò)之分,一個(gè)基本常識(shí)是,國內(nèi)創(chuàng)業(yè)公司,技術(shù)路線可以與 OpenAI 一樣,說明目光足夠長遠(yuǎn);但商業(yè)化打法參考 OpenAI 就是自尋死路——Sora 背后是 OpenAI 的技術(shù)實(shí)力,以及微軟的幾乎無限制的算力支持,普通公司沒有學(xué)習(xí)的資本。

也是因此,回顧整個(gè) 2023 年,生數(shù)科技主要資源都放在了圖像和 3D 上。到了今年 1 月份,生數(shù)科技才正式上線 4 秒短視頻生成,2 月份 Sora 發(fā)布之后,公司正式攻堅(jiān),很快便在 3 月份就突破了 8 秒的視頻生成,4 月份實(shí)現(xiàn) 16 秒長度突破,生成質(zhì)量與時(shí)長,全方面取得突破。

僅僅兩個(gè)月的時(shí)間就完成從 4 秒到 16 秒的訓(xùn)練任務(wù),速度令人吃驚。

背后不僅源自技術(shù)架構(gòu)層面的「前瞻」,也在于通過過去圖像到 3D 到視頻的循序漸進(jìn),讓團(tuán)隊(duì)積累了高效的工程化經(jīng)驗(yàn)。

視頻本質(zhì)上是圖像在時(shí)間序列上的擴(kuò)增,可以看成連續(xù)多幀的圖像,所以先從圖像開始入手,基礎(chǔ)建設(shè)類的工程化工作,比如數(shù)據(jù)的收集、清洗、標(biāo)注以及模型的高效訓(xùn)練等經(jīng)驗(yàn),是可以復(fù)用的。Sora 就是這么做的:它采用了 DALL·E 3 的重標(biāo)注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)的描述,使模型能夠更加準(zhǔn)確地遵循用戶的文本指令生成視頻。

據(jù)悉,「Vidu」也復(fù)用了生數(shù)科技在圖文任務(wù)的很多經(jīng)驗(yàn),通過在前期的圖像等任務(wù)中的準(zhǔn)備鋪墊,生數(shù)科技利用視頻數(shù)據(jù)壓縮技術(shù)降低了輸入數(shù)據(jù)的序列維度,同時(shí)采用自研的分布式訓(xùn)練框架,在保證計(jì)算精度的同時(shí),通信效率提升 1 倍,顯存開銷降低 80%,訓(xùn)練速度累計(jì)提升 40 倍。

路要一步一步走,飯要一口一口吃。在這個(gè)搶奪「國產(chǎn) Sora」的商業(yè)游戲中,技術(shù)上找對和認(rèn)準(zhǔn)方向是第一步;而走出「國產(chǎn)」特色,也是生存下去的必要條件,二者缺一不可。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 清華大學(xué) Sora

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
久久久久国色av免费看影院| 久久久久国产精品一区三寸| 欧美韩国日本综合| 久久免费视频网| 在线观看欧美亚洲| 亚洲国产美国国产综合一区二区| 久久亚洲一区| 亚洲欧洲午夜| 亚洲精品一区久久久久久| 欧美日韩精品一区二区在线播放| 国产精品99久久久久久有的能看| 亚洲一区二区成人| 国产一区二区三区成人欧美日韩在线观看 | 亚洲影视九九影院在线观看| 一区二区三区精品国产| 国产日韩一区二区三区在线| 久久影视三级福利片| 免费av成人在线| 在线亚洲一区二区| 亚洲中字在线| 亚洲高清精品中出| 夜夜爽99久久国产综合精品女不卡| 国产精品美女久久久久久2018| 久久激情五月丁香伊人| 免费观看亚洲视频大全| 在线亚洲一区观看| 久久国产精品亚洲va麻豆| 亚洲乱码久久| 欧美一区二区三区久久精品| 最新国产精品拍自在线播放| 这里只有精品视频| 在线观看欧美| 亚洲你懂的在线视频| 亚洲日本欧美在线| 午夜伦理片一区| 一本大道久久精品懂色aⅴ| 欧美亚洲三区| 亚洲一区二区高清| 美女91精品| 久久三级视频| 国产精品入口66mio| 欧美国产视频日韩| 国产在线成人| 亚洲在线视频网站| 宅男在线国产精品| 欧美顶级艳妇交换群宴| 久久五月天婷婷| 国产精品入口福利| 洋洋av久久久久久久一区| 亚洲国产一区在线| 久久精品五月| 久久久久国产精品一区| 国产伦精品一区二区| 99在线精品视频| 日韩一级不卡| 欧美国产欧美亚洲国产日韩mv天天看完整 | 欧美日韩一区国产| 欧美激情在线| 亚洲日本理论电影| 麻豆国产精品va在线观看不卡 | 99re8这里有精品热视频免费 | 国产精品一区久久久| 艳女tv在线观看国产一区| 99国产精品99久久久久久粉嫩| 久久免费精品日本久久中文字幕| 欧美黄色成人网| 久久综合九色99| 国产伊人精品| 久久久爽爽爽美女图片| 久久久久网址| 亚洲夫妻自拍| 欧美大片免费观看在线观看网站推荐| 免费不卡欧美自拍视频| 亚洲电影激情视频网站| 久久亚洲国产精品日日av夜夜| 久久综合狠狠综合久久综合88 | 欧美日韩p片| 亚洲美女啪啪| 午夜精品视频一区| 国产日韩精品一区二区| 欧美在线一区二区| 欧美成人一区在线| 日韩一级免费| 国产精品欧美久久久久无广告| 亚洲一区二区免费视频| 欧美一区在线直播| 亚洲电影免费观看高清完整版在线| 久久综合网络一区二区| 亚洲国产高清一区| 亚洲专区一二三| 国产欧美日韩麻豆91| 久久久久久久久久久久久9999| 男女激情视频一区| 亚洲视频 欧洲视频| 国产欧美亚洲精品| 狂野欧美激情性xxxx欧美| 日韩一级大片在线| 久久久国产午夜精品| 亚洲精品在线观| 国产日韩欧美综合在线| 老鸭窝毛片一区二区三区| 一本色道久久加勒比88综合| 久久精品伊人| 一区二区日韩免费看| 国产日本欧美一区二区三区在线| 蜜桃av久久久亚洲精品| 亚洲欧美成人在线| 欧美激情一区在线观看| 久久不见久久见免费视频1| 亚洲人精品午夜| 国产日韩一区欧美| 欧美日韩中文| 久久综合伊人77777| 亚洲午夜激情网站| 亚洲国产精品久久91精品| 欧美主播一区二区三区| 99re66热这里只有精品3直播| 国际精品欧美精品| 欧美午夜精品一区二区三区| 久久久欧美精品sm网站| 亚洲自啪免费| 99视频有精品| 亚洲国产精品黑人久久久| 欧美一区免费视频| 国产精品99久久久久久www| 亚洲第一伊人| 狠狠88综合久久久久综合网| 国产精品久久久一区二区三区| 免费亚洲电影在线| 久久久久久久久久久久久女国产乱| 亚洲一级二级| 一本久道久久综合中文字幕| 亚洲第一天堂无码专区| 久久综合中文字幕| 久久久91精品| 久久精品国产欧美激情| 亚洲专区在线| 亚洲无线视频| 亚洲在线视频观看| 亚洲一区二区不卡免费| 亚洲一区二区精品在线| 一本色道久久综合亚洲二区三区| 亚洲黄色在线看| 亚洲东热激情| 亚洲精品一区久久久久久| 亚洲日本国产| 一区二区三区日韩欧美| 亚洲午夜在线视频| 亚洲一级二级| 欧美中文字幕在线观看| 久久久久成人精品| 久久综合久久综合九色| 男女精品视频| 亚洲国产欧美日韩| 亚洲精品乱码久久久久久久久 | 亚洲国产精品va在线看黑人| 亚洲国产成人av在线| 亚洲精品国产日韩| 一本色道久久综合精品竹菊| 国产精品99久久不卡二区| 亚洲视频一区在线| 亚洲欧美综合国产精品一区| 欧美亚洲日本一区| 久久资源在线| 欧美三级特黄| 狠狠色丁香久久综合频道 | 欧美日本高清| 国产精品第三页| 好吊日精品视频| 夜夜嗨av一区二区三区| 性欧美大战久久久久久久久| 久久久精品午夜少妇| 亚洲国产乱码最新视频| 在线亚洲精品| 久久精品在线视频| 欧美日韩在线观看一区二区| 国产精品影音先锋| 亚洲国产精品电影| 亚洲免费在线观看视频| 久久综合狠狠综合久久综青草 | 亚洲欧美一区二区视频| 久久久久久久久综合| 欧美日韩另类丝袜其他| 国产最新精品精品你懂的| 一本色道久久综合亚洲精品不 | 久久久亚洲影院你懂的| 亚洲激情偷拍| 午夜精品视频在线观看| 欧美激情二区三区| 国产小视频国产精品| 日韩视频中文字幕| 老司机午夜精品视频| aa级大片欧美| 欧美国产日韩精品免费观看| 国产亚洲欧美另类一区二区三区| 一区二区欧美视频| 欧美电影免费观看大全| 先锋影音久久| 欧美视频亚洲视频| 日韩香蕉视频|