4月21日上午,由中國通信工業(yè)協(xié)會數(shù)據(jù)中心委員會指導,中國IDC圈與世紀互聯(lián)等共同主辦,以“同頻共振”為主題的“2021年中國IDC行業(yè)Discovery大會”在北京盛大開幕?,F(xiàn)場匯集了數(shù)百名來自數(shù)據(jù)中心上下游產(chǎn)業(yè)的專家、學者以及從業(yè)人士,共同探討、分享數(shù)據(jù)中心的發(fā)展及未來。大會同期在線上多個渠道開通了現(xiàn)場直播,共有數(shù)十萬觀眾觀看了本次大會。
會上,中國信通院云大所副所長魏凱向與會者分享了《新數(shù)據(jù)中心時代下的數(shù)據(jù)生產(chǎn)要素》。
魏凱:尊敬的吳部長,金理事長,陳升董事長,大家好,這個會的主題非常好,叫同頻共振。我今天講的數(shù)據(jù)中心內(nèi)容就講講在數(shù)據(jù)中心上層,要如何共振,我們新基建其實既有底層數(shù)據(jù)中心的基礎(chǔ)設(shè)施建設(shè),也有新技術(shù)基礎(chǔ)設(shè)施。在國家發(fā)改委的政策里頭,實際上把云計算,一體化大數(shù)據(jù)中心,還有人工智能、區(qū)塊鏈都納入到了新基建范疇,我們要同頻共振,就是要探討上層的應用和數(shù)據(jù)中心怎么互動。
從去年到今年中央一系列的文件把數(shù)據(jù)作為生產(chǎn)要素提出來以后,給我們開辟了幾乎是無限的增長空間,這在全球是受創(chuàng)的,意義是非凡的,確實是洞悉了整個人類歷史發(fā)展軌跡。從農(nóng)耕時代、工業(yè)時代,到信息時代,其實主要依賴的增長技術(shù)和核心資源,以及基礎(chǔ)設(shè)施都有巨大的變化,可以說是翻天覆地的變化,未來其實是非常可期的。
我們現(xiàn)在都在驚呼數(shù)據(jù)太大、太多了,增長太快了,實際上我這里要跟大家分享的圖非常有沖擊力,我們還在珠穆朗瑪峰的山腳下,今年是2021年,全球數(shù)據(jù)存儲量大概是50ZB,根據(jù)全球合作咨詢公司、智庫的預測,到2035年我們?nèi)驍?shù)據(jù)量是2100多ZB,指數(shù)增長在右側(cè)越來越快,越來越大,我們很習慣看線性增長。我們正在進入數(shù)據(jù)洪流的時代,5G核工業(yè)互聯(lián)網(wǎng)給我們開辟了這樣一個空間。數(shù)據(jù)中心產(chǎn)業(yè)里的同仁都非常幸福,因為你們有這么大的增長空間。
回顧我們國家對于數(shù)據(jù)的認識,對于數(shù)據(jù)戰(zhàn)略的布局,我們做了政策性的梳理,大概三個階段。
第一個階段是2014年左右,這個也是受了國際上很多知名企業(yè)和互聯(lián)網(wǎng)行業(yè)的啟發(fā),原來最早數(shù)據(jù)不認為是一種要素,因為在很多企業(yè)看來我們還要存儲,按照國家的要求要把數(shù)據(jù)存3個月,這是一個負擔。但是在互聯(lián)網(wǎng)行業(yè)啟發(fā)下,這些數(shù)據(jù)可以用來做行為分析,用戶精準畫像,發(fā)現(xiàn)數(shù)據(jù)是有價值的,之前很多人說數(shù)據(jù)是“數(shù)據(jù)廢棄”,變成了“數(shù)據(jù)資源”“數(shù)據(jù)資產(chǎn)”,我們也有推動大數(shù)據(jù)發(fā)展的行動綱要,這是頂層戰(zhàn)略,明確國家要從政務(wù)、民生、經(jīng)濟,向數(shù)據(jù)要生產(chǎn)力,這是第一個起步階段,但是這個時候其實大家對于這個的懷疑還是非常強烈的,就是數(shù)據(jù)到底能發(fā)揮什么價值。
在2017—2020年是一個新的階段,這個時候很多是自發(fā)的,企業(yè)內(nèi)生的,尤其是金融行業(yè),像運營商都發(fā)現(xiàn)其實數(shù)據(jù)驅(qū)動已經(jīng)是他們不得不做的事情,如果沒有數(shù)據(jù)驅(qū)動就像開車沒有導航一樣,這是自發(fā)的行為,這時候國家出臺了很多政策。
2020年以后又不一樣了,國家把它作為基礎(chǔ)要素提升,甚至跟土地要素并列,這是一個新的命題,又給我們開創(chuàng)了一個新的空間,再上了一個新臺階,全社會對這個事情的認知又上了一個新的高度,我覺得未來空間非常大。
這里跟大家分享一下我們搞數(shù)據(jù)的人,從前重視什么,以后重視什么。
從前,搞大數(shù)據(jù)的人都在解決企業(yè)內(nèi)部怎么高效存儲好自己的數(shù)據(jù)的問題,怎么更快的處理數(shù)據(jù),怎么能夠快速得到分析的結(jié)果。我們有很多技術(shù),ES、Spark、Hadoop,怎么高速運算這些數(shù)據(jù)。
現(xiàn)在甚至以后,其實反過來大家又開始討論隨著技術(shù)越來越多,管理成本越來越高,并不是技術(shù)成本,而是企業(yè)內(nèi)部的山頭林立,在座有很多金融界的朋友,數(shù)據(jù)治理是非常痛苦的事情。今天在組織內(nèi)部大家非常重視數(shù)據(jù)的更加智能,數(shù)據(jù)要良好的治理。因為數(shù)據(jù)不再是簡單的放在數(shù)據(jù)庫里就能產(chǎn)生價值的,而是要高質(zhì)量的融合起來,真正讓它成為閉環(huán)里面一個不得不做的要素,所以現(xiàn)在正在討論的是數(shù)據(jù)湖,智能化數(shù)據(jù)治理系統(tǒng)等等這些,這是單一機構(gòu)內(nèi)部的,我覺得這個問題還好解決,正在走上一個良性的軌道,從追求快到追求高質(zhì)量的發(fā)展,這是單一機構(gòu)內(nèi)部的。
更加棘手的問題是組織之間的,未來的空間在產(chǎn)業(yè)數(shù)字化,產(chǎn)業(yè)數(shù)字化實際上是跟產(chǎn)業(yè)互聯(lián)網(wǎng)是同義詞,產(chǎn)業(yè)互聯(lián)網(wǎng)不是個二元結(jié)構(gòu),消費互聯(lián)網(wǎng)是二元結(jié)構(gòu)。產(chǎn)業(yè)互聯(lián)網(wǎng),一個汽車兩千個零部件,誰也不能吃掉誰,所以我們要尊重企業(yè)的存在,產(chǎn)業(yè)鏈的存在。合作的時候其實數(shù)據(jù)就很難誰給誰,到底是我把數(shù)據(jù)給你還是你把數(shù)據(jù)給我,從前我們很少碰到這樣的問題,數(shù)據(jù)跨機構(gòu)融合。
以前我們在談數(shù)據(jù)跨機構(gòu)的時候,我們更多是要保護,隔離,鎖在保險柜里保密。今后為了做產(chǎn)業(yè)互聯(lián)網(wǎng),跟社會上的上下游要打通,政企打通,企業(yè)之間打通,所以關(guān)鍵詞變成了開放、融合。所以在大的政策里,可以看到我們不但在提數(shù)據(jù)要素變成生產(chǎn)要素,更再提數(shù)據(jù)要素市場化,“十四五”規(guī)劃里面有一大段專門提怎么把數(shù)據(jù)變成市場化要素,就是要開放、融合,在保證數(shù)據(jù)安全的前提下促進數(shù)據(jù)在不同主體之間連通,合作,所以又有了隱私計算、區(qū)塊鏈。
陳升董事長也是這方面的思想家,其實都是在解決數(shù)據(jù)跨機構(gòu)之間可信共享的問題,這是我們數(shù)據(jù)領(lǐng)域的人在考慮的問題,我覺得這些都跟數(shù)據(jù)中心的底座有非常強的關(guān)系,它意味著我們以后的計算模型其實是從數(shù)據(jù)運行到IO運行,到網(wǎng)絡(luò)密集型的任務(wù),這是一個變化。
我們再看人工智能,怎么挖掘數(shù)據(jù)可能不能靠人,得靠機器建模。人工建模非常費勁,甚至我們很難掌握這個領(lǐng)域的知識,所以最近幾年對于數(shù)據(jù)的處理,大量依靠機器。機器在數(shù)據(jù)里面訓練、學習,得到隱藏的模型,這個模型有很多時候人看不懂,但是沒關(guān)系,能產(chǎn)生實效,比如說語音翻譯,準確率達到99%,但是解釋不了這個原因,但是這個不妨礙我們機器很多事情做得很好。
人工智能最近幾年也進入了一個新的發(fā)展階段,以前大家可能覺得人工智能是靠大量的數(shù)據(jù)堆起來的,現(xiàn)在除了數(shù)據(jù)量要拉大,拼算力的時代也開始了。最近我們做了一個分析、統(tǒng)計,在90年代到2010年的階段,人工智能要訓練一個模型,它消耗的算力需求,每兩年翻一番,這還是一個比較均衡的,比較線性的增長趨勢。到了2015年以后,到現(xiàn)在,人工智能要訓練一個模型其實大概平均每3.4個月翻一番,就是算力的需求。去年有一個非常重磅級的人工智能訓練模型Open AI的GPT-3文本訓練,寫的文章根本看不出來是機器寫的還是人寫的。以前一億參數(shù)就搞定了,去年用的GPT-3模型里用的是1750多億,數(shù)據(jù)量從40G到45T,翻了一千倍,神經(jīng)網(wǎng)絡(luò)層數(shù)從48層到了96層,這預示著人工智能未來的發(fā)展回歸到了最底層的依賴,還是落到數(shù)據(jù)中心里面,未來誰能玩得起,只有數(shù)據(jù)中心玩家能玩得起,未來是拼算力的時代,這是人工智能對數(shù)據(jù)中心的改變。
人工智能模型是什么模型?是計算密集型的,是CPU密集型的任務(wù),現(xiàn)在有很多既要求CPU密集又要求IO密集,所以我們要有網(wǎng)絡(luò)來高速互聯(lián),對數(shù)據(jù)中心要求也很高,所以我們提智算中心。云計算是數(shù)據(jù)中心資源最多的行業(yè),增長非???,未來我們院的認識,其實云計算未來空間非常大,我們現(xiàn)在上云率還是非常低,大概30%多,云已經(jīng)從粗放到精細,從IaaS到SaaS的轉(zhuǎn)變,未來預估IaaS比較大,SaaS比較小,未來產(chǎn)值可能是倒三角,SaaS產(chǎn)值會非常大,包括邊緣這些發(fā)展非常快。
無論是大數(shù)據(jù)、云計算還是未來數(shù)據(jù)中心的發(fā)展、人工智能的發(fā)展,底層都是要靠數(shù)據(jù)中心提供強大算力。像三峽集團給我們提供電力一樣,我們中國現(xiàn)在數(shù)據(jù)中心產(chǎn)業(yè)發(fā)展如火如荼,但是什么事情一平均立馬就拉下來了。我們按照人均算力來說,我們屬于中等,在波蘭后面。人均算力460GFLOPS,前面國家都是西方發(fā)達國家,我們?nèi)司懔Σ罹嗪苓h的,表示我們未來發(fā)展空間非常大。
在上層應用的驅(qū)動下,數(shù)據(jù)中心進行了新一輪發(fā)展,根據(jù)我們院的統(tǒng)計,去年我們數(shù)據(jù)中心機架數(shù)是314萬架,2020年我們預計會到440萬架,翻到8倍,增速30%以上,給這個產(chǎn)業(yè)增加了很多錢,包括液冷,無損網(wǎng)絡(luò),很多新技術(shù)在開始投資,這一波新基建的數(shù)據(jù)中心建設(shè)不是傳統(tǒng)的,相對老行業(yè)數(shù)據(jù)中心本身就新,但是這一輪數(shù)據(jù)中心的建設(shè)是數(shù)據(jù)中心里面本身就新,新模式的發(fā)展,包括產(chǎn)業(yè)生態(tài)的合作。
我們看到基礎(chǔ)運營商還有第三方數(shù)據(jù)中心,還有第三方數(shù)據(jù)中心和服務(wù)商的合作模式也越來越豐富了,產(chǎn)業(yè)鏈協(xié)同也是一個新的開始。
我們院今年有個課題,給我們的任務(wù),就是讓我們貫通云、大數(shù)據(jù)、人工智能、數(shù)據(jù)中心來看算力基礎(chǔ)設(shè)施的變革、轉(zhuǎn)型,未來算力基礎(chǔ)設(shè)施將怎么走,跟網(wǎng)絡(luò)怎么耦合,現(xiàn)在我們都在提云邊協(xié)同,算網(wǎng)融合,數(shù)網(wǎng)協(xié)同這些新的概念,我們未來怎么發(fā)展,我覺得需要跟業(yè)界的同行共同探討,特別是在碳達峰,碳中和的大背景下,以前是攤大餅的模式,未來我們要走更精細的模式,我們怎么能夠構(gòu)建一個融合這么多數(shù)據(jù)中心形態(tài)的,包括邊緣,包括智算中心、數(shù)據(jù)中心、超算中心,傳統(tǒng)機房、云機房這些怎么形成一個非常好的一體化的算力基礎(chǔ)設(shè)施,真正讓算力成為像電力一樣的,打開水龍頭計算能力就來了這樣一個美好的未來,當然它要適應我們現(xiàn)在很多的場景,包括5G、車載、物聯(lián)網(wǎng)這些場景,空間非常非常大,我也特別希望能夠跟各位數(shù)據(jù)中心的專家能夠多學習、多探討,共同促進這個產(chǎn)業(yè)的發(fā)展,我就分享這么多,謝謝大家。