賈揚清演講實錄:阿里云一體化大數據智能平臺的演進
演講人:賈揚清
演講主題:阿里云一體化大數據智能平臺的演進
活動:2022云棲大會-一體化大數據智能峰會
今年在技術主論壇上,我們講到了人工智能領域算法的不斷演進,同時,這些智能化的應用,反過來其實催生了大數據這個領域需求的爆發式的增長。今天的論壇,我們希望立足于數據這個領域,來看一看,數據和智能之間有哪些創新的火花。
大數據這個概念,本身并不新。從最開始的關系型數據庫開始,在20世紀90年代,數據量的增大和應用的增加,業界開始體系化地思考大數據的一些方法論。最典型的可能是今天在數據領域耳熟能詳的三個V:數據的體量Volume,速度Velocity,和多樣性Variety,這“三個V“。在這些方法論的指導下我們開始從存儲、計算、調度、服務等多個角度來建設一個優秀的大數據體系。

在主論壇上,我們提到了人工智能今天的一個不可能三角:易用性,規模,和效率。這三個核心的點,在大數據的領域其實一樣存在。映射到大數據上,我們會看見那么一些特性:
首先,生產工具的易用性。因為數據本身是一個很“重“也和業務聯系緊密的平臺,因此我們很多時候關注在它的安全性和穩定性。這沒有錯,但是今天我們越來越多的決策其實都需要用到數據,那么, 怎么建設一個更加靈活、便捷的平臺,讓每一個人在用數據的時候,寫一行sql,甚至不需要寫sql,就可以從實際業務的角度去獲取數據呈現出來的規律?這是易用性的問題。
其次,規模化的生產力。今天的各種數據平臺、數據倉庫層出不窮。但是,對我們來說,怎么樣解決數據孤島和數據效率問題,怎么樣能夠在保證支撐業務規模化發展的同時大大降低數據平臺的復雜度和成本,這是一個很現實的需求。阿里云大數據平臺今天支撐著每天10EB級別的計算,相信很多云上客戶都在面對規模的問題。
最后,數據的多樣化的應用帶來了生產效率的需求。對一個企業而言,似乎數據平臺永遠都在做計算:比如說 ETL,流計算,OLAP等。但是問題是這些東西算出來了有沒有人看,我們并不知道,沒人看就會造成浪費。另外,有些任務是不是沒寫好,寫成全表掃描但是其實只處理了一丁點數據,這就涉及到治理的問題。就像今天很多應用需要quality control一樣,數據也需要。生產效率不僅是技術上的效率,還有組織治理上的效率。
那么從阿里巴巴的角度我們做了一些什么事情?

我們的大數據平臺也是從簡單的開源技術和單點技術出發的:最初搭建Hadoop集群和最初對標Hadoop的自研大數據集群ODPS開始,我們是通過云化來提升平臺效率:通過將一個企業的數據實現大集中,能夠打通不同的子業務部門,解決數據壁壘問題,從零到一把數據體系搭建起來。
通過管理全量的數據任務,我們就可以來實現用很低的成本支撐業務的持續增長。在這個過程當中,我們也見到非常多的性能挑戰。這些性能來自兩方面:一方面,系統大了,怎么把SQL跑得更快,怎么把存儲做的更好,怎么把存儲和計算的水位提上去,就有很多要做的內功。
另一方面,我們看到很多多樣化的計算需求:例如離線計算和實時計算,一個追求資源利用水位,一個追求OLAP的效率。今天我們的嘉賓會講到,我們如何通過更加一體化的設計,來從技術上解決需求多樣化和成本之間的矛盾。
最后一個是怎么降低門檻。數據開發治理是個挺復雜的事情。這一點我們認為是我們和很多國際的數據服務提供商有區別且做的還不錯的地方,例如前面一年大家耳熟能詳的snowflake 是很不一樣的。阿里云是提供一個上層完整的開發,運維、建模和治理的體系。從開發者的角度,你可以來獲得從開發到系統運維的全景;從企業治理的角度,你可以看到各個部門、各條業務對數據管理和治理的效率,能夠讓數據開發變得更加全局化。
上面說的這些能力相對比較抽象,那么,我們今天在云上,能給大家提供什么樣的產品能力?

第一,今天開源是一個大趨勢。無論是用的傳統的Hadoop,Hive,還是今天的Spark和數據湖的架構,我們能夠在云上提供和開源完全一致的體驗,同時我們能夠提供簡單安裝一個開源軟件所缺少的很多能力。簡單地來說,企業級的穩定性、彈性、免運維等。今天無論是EMR,還是Flink和ElasticSearch,我們都提供Serverless的能力和托管的底座,讓大家不需要關心這些“臟活累活”。同時,我們在開源領域也做了非常多的創新工作,舉個例子,我們在最近剛捐獻給Apache基金會的一個項目叫做Celeborn,就大大提升了數據湖上非常多引擎,做數據shuffle的性能。
第二,我們提供了一個由注重離線和規模的MaxCompute和注重實時數據分析和服務的Hologres組成的一體化的自研大數據平臺ODPS。今天,我們看到的一個大趨勢是數據平臺的“自動駕駛”,用戶不需要關注數據究竟是離線表還是實時表,不需要關注引擎和底層的存儲是否打通的問題,而是用一套存儲、一套元數據、一套調度來解決問題。同時,通過湖倉一體的方式,我們可以實現開源數據湖和自研數倉之間的無縫打通。
第三,我們在多種數據引擎之上,全面升級了數據開發治理的平臺Dataworks。今天Dataworks已經可以支持多個底層的引擎,同時在數據建模、治理上面幫助行業專家們更加迅速地搭建起適合自己的數據中臺,同時在數據中臺上來發現和治理數據的健康分等一系列的效率問題。另外很重要的一點,今年dataworks的每個版本我們都會提供相應的OpenAPI能力,讓之上的二次開發變得更加簡單。
今天我們看見的一個非常清晰的趨勢,就是,傳統的數據分析和計算依然是主流,同時有越來越多的數據應用是在人工智能這個領域。比如,我們說的“深度學習” - 視覺語音NLP等經常會用到非結構化的數據,同時智能搜索、用戶推薦等等場景,也會和數據非常強的綁定在一起。
今天,在數據湖,數據倉庫的基礎上,我們所建設的人工智能平臺PAI在很好地解決大數據AI一體化的能力。例如主論壇我們所發布的模型開源平臺ModelScope,自動駕駛領域的高性能計算解決方案,以及智能推薦和用戶增長的解決方案,都是在PAI上面所建設起來的。
最后,通過一張大圖向大家展示一下我們剛才提到的各個產品組成的體系,供大家按圖索驥。

大數據技術領域在持續演進,它和人工智能的結合和創造出來無限的可能性,希望能和各位嘉賓、合作伙伴以及各位朋友們一起探索。謝謝大家。
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

