確定性網(wǎng)絡(luò)為AI大模型發(fā)展提供重要支撐
尊敬的各位來(lái)賓,大家好!我跟大家分享的題目是“確定性網(wǎng)絡(luò)為AI大模型發(fā)展提供重要支撐”。
??? 大家知道,網(wǎng)絡(luò)在消費(fèi)領(lǐng)域取得很大成功以后,現(xiàn)在面臨著一個(gè)新的挑戰(zhàn)性機(jī)會(huì)。這個(gè)機(jī)會(huì)就是互聯(lián)網(wǎng)從消費(fèi)領(lǐng)域開(kāi)始進(jìn)入實(shí)體經(jīng)濟(jì),進(jìn)入AI時(shí)代,這樣一個(gè)網(wǎng)絡(luò)的變革怎樣適應(yīng)新的需求?這就是一個(gè)非常現(xiàn)實(shí)的、非常嚴(yán)峻的挑戰(zhàn)。
??? 首先,我們看一看在制造業(yè)、工業(yè)界的需求。IEC圍繞整個(gè)產(chǎn)業(yè)界的發(fā)展、人工智能的發(fā)展提出了一些新的確定性標(biāo)準(zhǔn),包括PLC云化、遠(yuǎn)程控制。
??? 能源領(lǐng)域也有一些新的需求,我國(guó)電力行業(yè)的二氧化碳排放量占整個(gè)能源系統(tǒng)的大概40%,碳中和、碳達(dá)峰戰(zhàn)略指標(biāo)怎樣實(shí)現(xiàn),面臨非常大的挑戰(zhàn)。美國(guó)能源部為滿(mǎn)足電力行業(yè)的控制制定確定性的標(biāo)準(zhǔn),推動(dòng)研究安全可靠的確定性電力及工業(yè)控制網(wǎng)絡(luò),包括IEC在能源確定性的領(lǐng)域制定和發(fā)布相關(guān)的白皮書(shū),這些都說(shuō)明確定性是下一代網(wǎng)絡(luò)必須面對(duì)和解決的問(wèn)題。
??? 剛才我們只是說(shuō)在消費(fèi)領(lǐng)域進(jìn)入實(shí)體經(jīng)濟(jì),進(jìn)入AI人工智能領(lǐng)域需要確定性的網(wǎng)絡(luò),現(xiàn)在發(fā)現(xiàn)在消費(fèi)領(lǐng)域也需要確定性的網(wǎng)絡(luò)。蘋(píng)果推出的可穿戴電子設(shè)備產(chǎn)品——Apple Vision Pro,有12個(gè)攝像頭,5個(gè)傳感器,6個(gè)麥克風(fēng),可以在12毫秒內(nèi)把一幅非常高清的圖像展現(xiàn)在面前,(戴著這種設(shè)備)自己在一個(gè)屋子里可以看到滿(mǎn)天的星星,12毫秒內(nèi)就會(huì)變成挨著大海。這就是確定性網(wǎng)絡(luò)在消費(fèi)領(lǐng)域的典型應(yīng)用場(chǎng)景,將來(lái)尤其是AR和VR這些領(lǐng)域都會(huì)提出這樣新的需求。
??? 大模型對(duì)算力的需求也有提出更迫切的要求,2012年到2023年,整個(gè)算力需求增加了數(shù)十萬(wàn)倍,而且最近五年就GPU的算力增加了90倍,但整個(gè)網(wǎng)絡(luò)的帶寬才增加了10倍,這個(gè)差距現(xiàn)在預(yù)示著將來(lái)對(duì)整個(gè)網(wǎng)絡(luò)帶寬的能力、通訊能力提出更高的要求,因?yàn)槿笨跁?huì)越來(lái)越大。
??? 大家知道,數(shù)據(jù)要素的確權(quán)已經(jīng)成為了一個(gè)很重要的應(yīng)用領(lǐng)域,怎么把數(shù)據(jù)要素利用好、管理好,把安全性保護(hù)好是非常具有挑戰(zhàn)性的問(wèn)題。沒(méi)有數(shù)據(jù)要素,中國(guó)可能在AI方面也會(huì)遇到很大的障礙。韓國(guó)因?yàn)閿?shù)據(jù)要素沒(méi)有注意保護(hù)好,把半導(dǎo)體的設(shè)備和制造工藝通過(guò)AI的方式流失到國(guó)外,通過(guò)大模型把很多關(guān)鍵數(shù)據(jù)泄露的事故不斷地發(fā)生,所以在數(shù)據(jù)要素的隱私保護(hù)方面如果做不好,這些數(shù)據(jù)要素就沒(méi)法共享,就沒(méi)法流通,所以AI的發(fā)展就會(huì)遇到障礙。
??? 算力的發(fā)展是分布在各個(gè)地方,不可能集中在一個(gè)地方來(lái)做算力,電力的問(wèn)題就解決不了。我們國(guó)家東數(shù)西算的布局,怎樣能夠把這種算力布局服務(wù)到全國(guó)各個(gè)行業(yè)、各個(gè)大模型?網(wǎng)絡(luò)問(wèn)題怎么解決?這就面臨一個(gè)很大的挑戰(zhàn)。遠(yuǎn)距離的傳輸最大的技術(shù)挑戰(zhàn),怎樣實(shí)現(xiàn)遠(yuǎn)距離無(wú)損的傳輸?RDMA是一種非常關(guān)鍵的技術(shù),微軟的算力中心70%都是用這樣無(wú)損的協(xié)議進(jìn)行互聯(lián),華為的試驗(yàn)數(shù)據(jù)顯示,100GE環(huán)境下,8節(jié)點(diǎn)的VGG16模型訓(xùn)練RDMA性能是TCP的8倍多。
??? 說(shuō)到新的RDMA協(xié)議,美國(guó)2008年就在做一個(gè)實(shí)驗(yàn),就是從東海岸到西海岸,鋪設(shè)一條10G光纜,美國(guó)橡樹(shù)林實(shí)驗(yàn)室就在做這項(xiàng)實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示丟包率大于1%的時(shí)候,傳輸效率下降50%,如果丟包率大于2%,效率下降到0,等于是100GB的帶寬有1%的丟包就變成50GB,如果是20%的丟包就會(huì)變成零,數(shù)據(jù)根本傳不過(guò)去。為什么?遠(yuǎn)距離無(wú)損傳輸是一項(xiàng)必須攻克的技術(shù)。
??? 因?yàn)锳I高端芯片對(duì)中國(guó)的封鎖,中國(guó)單點(diǎn)算力的差距跟美國(guó)會(huì)越來(lái)越大。H100的性能我們現(xiàn)在還沒(méi)有趕上,GB200又出來(lái)了,在網(wǎng)絡(luò)方面的能力,GB200相較于H100又有了成千上百被的提升,說(shuō)明什么問(wèn)題?每個(gè)芯片在互聯(lián)網(wǎng)能力方面大大提升,所以GPU算力跟網(wǎng)絡(luò)帶寬的需求量增長(zhǎng)的速度,通過(guò)NVIDIA的芯片就可以看出,將來(lái)對(duì)網(wǎng)絡(luò)帶寬的需求量是很大的。
??? 美國(guó)能源科研網(wǎng)ESnet,2022年10月發(fā)布的ESnet6,第六代的網(wǎng)絡(luò)開(kāi)通。每年業(yè)務(wù)量增長(zhǎng)55%,大概140個(gè)科研網(wǎng)提供服務(wù),而且這個(gè)網(wǎng)絡(luò)號(hào)稱(chēng)全球最快的互聯(lián)網(wǎng)。主要的功能就是為國(guó)家實(shí)驗(yàn)室提供數(shù)據(jù),包括能源,110億的風(fēng)電站數(shù)據(jù)節(jié)點(diǎn)通過(guò)整個(gè)超算中心并行進(jìn)行計(jì)算,包括對(duì)新能源的控制和調(diào)度,開(kāi)展這樣的服務(wù),同時(shí)也進(jìn)行遠(yuǎn)距離的協(xié)同訓(xùn)練,邊緣的算力和本地的算力效率提高30倍,就是協(xié)同的訓(xùn)練需要1個(gè)月,自己?jiǎn)为?dú)訓(xùn)練需要300個(gè)月,都有非常好的結(jié)果。
??? 2022年10月發(fā)布第六代的ESnet6,2023年就要做ESnet7,為什么?發(fā)現(xiàn)了一些新的需求,本來(lái)ESnet開(kāi)通以后運(yùn)行三五年再啟動(dòng)下一代網(wǎng)絡(luò),現(xiàn)在啟動(dòng)以后馬上發(fā)現(xiàn)新的功能的需求。第一個(gè)需求就是端到端的確定性,所以對(duì)算力網(wǎng)絡(luò)來(lái)講,確定性是一個(gè)非常重要的基礎(chǔ),可以為海量數(shù)據(jù)遠(yuǎn)距離無(wú)損傳輸提供關(guān)鍵技術(shù)支撐。
??? 下面介紹一下確定性技術(shù)的研究情況:首先就是網(wǎng)絡(luò)架構(gòu)的變革,因?yàn)橐鉀QAI的需求,解決實(shí)體經(jīng)濟(jì)的需求,不是一個(gè)單一的技術(shù)就能夠解決的,整個(gè)網(wǎng)絡(luò)的架構(gòu)都要系統(tǒng)性地設(shè)計(jì)才能解決,但我們的架構(gòu)是服務(wù)定制網(wǎng)絡(luò),主導(dǎo)思想就是要解決原來(lái)是盡力而為的架構(gòu),變成一個(gè)確保所需的架構(gòu)。原來(lái)互聯(lián)網(wǎng)最大的成功就是經(jīng)濟(jì)、實(shí)惠、方便、靈活,但是盡力而為的。實(shí)體經(jīng)濟(jì)和AI領(lǐng)域是不確保你的需要,這些工作是沒(méi)法進(jìn)行的。
??? 互聯(lián)網(wǎng)需要大腦,原來(lái)互聯(lián)網(wǎng)沒(méi)有大腦,只有在設(shè)備里面有一個(gè)小腦,小腦的功能主要是轉(zhuǎn)發(fā)。原來(lái)我們的大腦還是采用統(tǒng)計(jì)分析的思路,現(xiàn)在我們要做的是生成式的大腦,就是大腦不斷地通過(guò)網(wǎng)絡(luò)的數(shù)據(jù)、網(wǎng)絡(luò)的大模型提高自己的智能,這是整個(gè)網(wǎng)絡(luò)最核心的一項(xiàng)技術(shù)。
??? 確定性的技術(shù)也是在不斷演進(jìn),需要整個(gè)網(wǎng)絡(luò)底層跟光通訊進(jìn)行融合,因?yàn)閷?lái)大模型的訓(xùn)練需要400GB、800GB,甚至將來(lái)1.6TB更高的速率。AI大模型有各種維度的需求,有的是大模型,有的是中模型,有的是企業(yè),有的是個(gè)人,都需要算力,各種維度的需求能不能量身定做,滿(mǎn)足每個(gè)用戶(hù)的需要?數(shù)據(jù)要素也好、大模型訓(xùn)練也好、推理模型也好,需要不同的帶寬、不同的網(wǎng)絡(luò),自己可以隨時(shí)定制,這些是未來(lái)AI發(fā)展必須提供的一個(gè)功能。
??? 無(wú)損傳輸還需要一些相關(guān)的技術(shù),400GB無(wú)損的網(wǎng)卡,包括整個(gè)控制的協(xié)議。通過(guò)RDMA技術(shù)傳輸效率提高到96%,就是100GB可以達(dá)到96GB的帶寬,這些效率對(duì)整個(gè)AI的算力來(lái)講都是非常重要的指標(biāo)。當(dāng)然,云原生的算網(wǎng)操作系統(tǒng),將來(lái)的調(diào)度不光是算力,算力要跟網(wǎng)絡(luò)的能力匹配起來(lái),一些算力需要網(wǎng)絡(luò)更高的質(zhì)量,一些算力就要求比較低,靈活的網(wǎng)絡(luò)和算力適配起來(lái)進(jìn)行調(diào)度,這些技術(shù)我們都要有所突破。
??? 網(wǎng)絡(luò)安全包括很多方面,我就講預(yù)防攻擊,如果發(fā)生意外情況,通過(guò)DDOS供給網(wǎng)絡(luò),尤其是俄烏沖突以后,這是非常值得關(guān)注的領(lǐng)域,我們已經(jīng)突破了10GB以上的防護(hù)能力。
??? 下面介紹幾個(gè)確定性網(wǎng)絡(luò)在數(shù)字經(jīng)濟(jì)中的應(yīng)用案例。
??? 東數(shù)西算采用CENI建設(shè)安全新總線(xiàn),因?yàn)槿筮\(yùn)營(yíng)商通過(guò)互聯(lián)網(wǎng)提供服務(wù),我們通過(guò)安全新總線(xiàn)提供服務(wù),它的傳輸效率和普通互聯(lián)網(wǎng)的效率相比可以提高10-20倍。
??? 西部的算力中心怎么和東部大模型的所在地以及使用西部算力的用戶(hù)和企業(yè)提供更好的服務(wù)?就像剛才講的需要400GB、100GB、10GB、1GB,能不能提供安全保證、方便、經(jīng)濟(jì)、實(shí)惠的網(wǎng)絡(luò)服務(wù)?我們提供這樣的能力,尤其是數(shù)據(jù)要素怎么承載、怎么交流、怎么共享?如果沒(méi)有網(wǎng)絡(luò)的保證,數(shù)據(jù)不敢上網(wǎng)傳輸和共享,因?yàn)楦悴缓煤芸炀蜁?huì)被國(guó)外拿走,尤其是行業(yè)的數(shù)據(jù),如果沒(méi)有可靠的網(wǎng)絡(luò)保證,很快就會(huì)被拿走,我們?cè)谔峁┻@樣的實(shí)驗(yàn)和能力。
??? 我們?cè)陂L(zhǎng)三角的13個(gè)地市采用確定性網(wǎng)絡(luò)開(kāi)展服務(wù),山東16個(gè)地市也用確定性網(wǎng)絡(luò)提供新的、不一樣的服務(wù)能力,這些服務(wù)能力都有支持當(dāng)?shù)氐陌l(fā)展。
??? 臨工集團(tuán)作為龍頭企業(yè),把上下游的上千個(gè)企業(yè)串聯(lián)起來(lái),因?yàn)樵瓉?lái)企業(yè)只關(guān)心自己的智能化改造、網(wǎng)絡(luò)化改造,現(xiàn)在整個(gè)上下游的產(chǎn)業(yè)價(jià)值鏈如果不連通起來(lái)就會(huì)受到制約,所以在人工智能時(shí)代,行業(yè)大模型的發(fā)展就顯得尤為重要。
??? 能源行業(yè)專(zhuān)網(wǎng)也是把新能源和傳統(tǒng)能源形成互補(bǔ),電力系統(tǒng)和新能源系統(tǒng),將來(lái)如何進(jìn)行互補(bǔ),解決他們遇到的問(wèn)題,現(xiàn)在各個(gè)方面都做了很多成功的案例,就是通過(guò)確定性的網(wǎng)絡(luò)實(shí)現(xiàn)。
??? 我認(rèn)為中國(guó)的出路在于行業(yè)大模型,因?yàn)橥ㄟ^(guò)通用大模型,盡管是一項(xiàng)技術(shù),必須要做,但搞不好通用大模型的差距越來(lái)越大,因?yàn)锳I高端芯片差距越來(lái)越大。行業(yè)的數(shù)據(jù)還沒(méi)有完全在網(wǎng)上流通,因?yàn)樵谥袊?guó)行業(yè)數(shù)據(jù)的完整性、系統(tǒng)性是最好的,尤其是在制造業(yè),如果把這些行業(yè)數(shù)據(jù)利用好,通過(guò)行業(yè)大模型產(chǎn)生價(jià)值,這是中國(guó)發(fā)展新質(zhì)生產(chǎn)力的一個(gè)非常好的途徑。
??? 我覺(jué)得中國(guó)在這方面大有可為,但必須把行業(yè)專(zhuān)網(wǎng)提供出來(lái),否則這些數(shù)據(jù)不可能通過(guò)專(zhuān)線(xiàn),因?yàn)槌杀緦?shí)在太高了。南京正在開(kāi)展高速公路提供行業(yè)專(zhuān)網(wǎng),通過(guò)網(wǎng)絡(luò)大科學(xué)裝置提供切片,提供行業(yè)專(zhuān)網(wǎng),因?yàn)槲覀兊拇_定性網(wǎng)絡(luò)是可以提供成千上萬(wàn)個(gè)專(zhuān)網(wǎng)的公網(wǎng),像專(zhuān)網(wǎng)一樣的質(zhì)量,公網(wǎng)一樣的方便,靈活和經(jīng)濟(jì)性,所以這種網(wǎng)絡(luò)的能力可以給行業(yè)專(zhuān)網(wǎng)提供敢流通、敢共享,能夠做到確權(quán),就是支持整個(gè)行業(yè)的發(fā)展。
??? AI的機(jī)會(huì)是任何行業(yè)都沒(méi)法回避的領(lǐng)域,盡管有些不同的見(jiàn)解,但AI的大趨勢(shì),我們要做好這一準(zhǔn)備。作為未來(lái)網(wǎng)絡(luò)團(tuán)隊(duì),我們?cè)诰W(wǎng)絡(luò)方面會(huì)不斷地給大家一起提供知識(shí)和服務(wù)。