“戈登貝爾獎(jiǎng)”之后,中國(guó)需要什么樣的超算呢?
上個(gè)月的SC21大會(huì),中國(guó)超算除了摘得國(guó)際超算應(yīng)用領(lǐng)域的最高學(xué)術(shù)獎(jiǎng)項(xiàng)“戈登貝爾獎(jiǎng)”引起轟動(dòng)之外,還有一件大事。那就是在當(dāng)?shù)貢r(shí)間11月18日公布的IO500榜單上,Top3 都是中國(guó)自研系統(tǒng),其中兩席是華為已經(jīng)大規(guī)模商用的存儲(chǔ)系統(tǒng)。
全球 HPC 存儲(chǔ)系統(tǒng)性能排名 IO500 榜單,Top 3 均為中國(guó)自研系統(tǒng),其中華為獨(dú)占兩席。來(lái)源:io500.orgIO500是高性能計(jì)算領(lǐng)域針對(duì)存儲(chǔ)性能最權(quán)威的世界排行榜之一,它反映的是存儲(chǔ)系統(tǒng)可為實(shí)際程序提供的I/O性能,是衡量超級(jí)計(jì)算機(jī)應(yīng)用效率的重要指標(biāo),具有極高的參考價(jià)值。
而存力比之于算力,也愈顯其重要性。從近年來(lái)入圍“戈登貝爾獎(jiǎng)”的超算應(yīng)用及歷年獲獎(jiǎng)情況來(lái)看,人工智能+大數(shù)據(jù)與超算的融合正成為主流趨勢(shì)。
而隨著要處理的數(shù)據(jù)量暴增,高性能計(jì)算機(jī)也正從以計(jì)算為核心向以數(shù)據(jù)為核心的計(jì)算演進(jìn),數(shù)據(jù)密集型超算亦被視為未來(lái)發(fā)展的主流方向之一。
華為攜存儲(chǔ)技術(shù)優(yōu)勢(shì),正在這一方向發(fā)力。12月10日,華為與湖南大學(xué)在國(guó)家超級(jí)計(jì)算長(zhǎng)沙中心簽署戰(zhàn)略合作協(xié)議,成立“數(shù)據(jù)密集型超算聯(lián)合創(chuàng)新中心”。
這是我國(guó)首個(gè)關(guān)注于數(shù)據(jù)密集型超算的聯(lián)合創(chuàng)新平臺(tái)。依照合作協(xié)議,雙方將就項(xiàng)目共推、技術(shù)應(yīng)用、人才培養(yǎng)等聯(lián)合開(kāi)展數(shù)據(jù)密集型超算示范相關(guān)工作。
為什么說(shuō)數(shù)據(jù)密集型超算代表著未來(lái)超算發(fā)展的方向?其建設(shè)與應(yīng)用有哪些技術(shù)要求、有哪些難題?未來(lái)該如何培育發(fā)展?
天才的預(yù)判,院士的首肯
在展開(kāi)我國(guó)計(jì)算技術(shù)產(chǎn)業(yè)話題之前,有一個(gè)美日歐都無(wú)可比擬的前提,那就是中國(guó)勢(shì)必是擁有最海量數(shù)據(jù)、最多元數(shù)據(jù)類型、最豐富應(yīng)用場(chǎng)景的地方——這些特征隨著信息爆炸愈發(fā)突出。可以說(shuō),抓住了大數(shù)據(jù)和數(shù)據(jù)價(jià)值挖掘這個(gè)“總龍頭”,就抓住了未來(lái)計(jì)算產(chǎn)業(yè)競(jìng)爭(zhēng)力的“牛鼻子”。
有時(shí)候不得不佩服天才大師們的先見(jiàn)之明——傳奇的1998年度圖靈獎(jiǎng)得主吉姆·格雷(James Gray,或稱詹姆士·格雷)早在2007年的演講中就提出,隨著數(shù)據(jù)的爆炸性增長(zhǎng),科學(xué)計(jì)算(即“第三范式”)中的數(shù)據(jù)密集型范式將成為一個(gè)獨(dú)特的科學(xué)研究范式,即第四范式。而超算也將從科學(xué)計(jì)算工具,向著基于大數(shù)據(jù)、人工智能(AI)的“數(shù)據(jù)密集型科學(xué)”演進(jìn)。
稍展開(kāi)一下解讀,可以說(shuō),作為構(gòu)建下一代數(shù)據(jù)產(chǎn)業(yè)和科學(xué)計(jì)算的基石,超算無(wú)疑握著一把開(kāi)啟未來(lái)數(shù)據(jù)文明的鑰匙。
吉姆·格雷那次演講的題目為《科學(xué)方法的革命》,這是他留給世人的最后一次演講。這次演講17天后,吉姆·格雷以一個(gè)帆船運(yùn)動(dòng)愛(ài)好者的身份,消失在了茫茫大海,至今杳無(wú)音信。
1998年度圖靈獎(jiǎng)得主吉姆·格雷(資料圖)
但他這一論斷影響深遠(yuǎn)。在今年的全國(guó)高性能計(jì)算學(xué)術(shù)年會(huì)(CCF HPC China 2021)上,中國(guó)計(jì)算機(jī)學(xué)會(huì)高性能計(jì)算專業(yè)委員會(huì)(CCF高專委)發(fā)布了由華為公司與上海交通大學(xué)等多家高校、長(zhǎng)沙超算等多家超算中心等主編的《數(shù)據(jù)密集型超算技術(shù)白皮書(shū)》(下簡(jiǎn)稱《白皮書(shū)》)!栋灼(shū)》由中國(guó)科學(xué)院院士陳國(guó)良作序,他在序言中直言:“智能世界運(yùn)轉(zhuǎn)的速率直接取決于數(shù)據(jù)分析的效率。”
陳國(guó)良院士(資料圖)
陳國(guó)良院士作了個(gè)貼切的比喻:如果說(shuō)數(shù)據(jù)是數(shù)字世界的新石油,那么“預(yù)計(jì)到2025年占比將超過(guò)80%的非結(jié)構(gòu)化數(shù)據(jù)”就是石油中的頁(yè)巖油。和頁(yè)巖油一樣,非結(jié)構(gòu)化數(shù)據(jù)的“開(kāi)采”(價(jià)值挖掘)難度更大,需要依賴更加專業(yè)化的工具。
他談到,工具之一就是《白皮書(shū)》中提到的“面向海量數(shù)據(jù)的高性能數(shù)據(jù)分析”(High Performance Data Analysis,HPDA) 。為幫助理解,陳院士還貼心地寫(xiě)下一條等式:
HPDA= HPC + BigData +AI
從這個(gè)等式出發(fā),陳國(guó)良院士對(duì)《白皮書(shū)》提出的以數(shù)據(jù)為中心的超算系統(tǒng)架構(gòu)“深以為然”,他說(shuō):“以數(shù)據(jù)為中心也就是以價(jià)值為中心!
“如果把IT系統(tǒng)跟人或組織的關(guān)系比喻成好朋友,那么IT系統(tǒng)以前更多是一個(gè)隨叫隨到、提升效率的小助手;而以后,IT系統(tǒng)更多地是參與人或組織在商業(yè)世界里的價(jià)值共創(chuàng)!睅缀跖c吉姆·格雷異曲同工地,陳國(guó)良院士認(rèn)為,“超算系統(tǒng)將更多地從一個(gè)業(yè)務(wù)支撐系統(tǒng)走向一個(gè)價(jià)值生產(chǎn)系統(tǒng)”。
10大場(chǎng)景,需求擺在桌面
如果說(shuō)我們能從前賢的見(jiàn)解中可以得出什么結(jié)論,至少有一條:未來(lái)數(shù)據(jù)密集型超算的發(fā)展,與我國(guó)科技創(chuàng)新邁向更廣更深息息相關(guān)。
而與此同時(shí),如何建設(shè)和發(fā)展數(shù)據(jù)密集型超算的問(wèn)題也就擺在了桌面。
超算作為國(guó)之重器,當(dāng)然不能“先射箭后畫(huà)靶”。而要明確構(gòu)建數(shù)據(jù)密集型超算的技術(shù)要求、勾勒數(shù)據(jù)密集型超算的輪廓,最必要的是要弄清楚,未來(lái)將會(huì)有哪些數(shù)據(jù)密集型的超算應(yīng)用、它們給超算提出了哪些要求和挑戰(zhàn)。
這些問(wèn)題本來(lái)挺難回答的,但好在“剛想睡覺(jué)就有人送枕頭”——前文提到的《白皮書(shū)》專門(mén)辟以大量篇幅,面向未來(lái)3~5年數(shù)據(jù)密集型超算場(chǎng)景作出了預(yù)測(cè)。
這個(gè)預(yù)測(cè)的完整表述是“面向2025年的十大數(shù)據(jù)密集型超算場(chǎng)景”。這十大場(chǎng)景依次是:基因測(cè)序、自動(dòng)駕駛、能源勘探、氣象預(yù)測(cè)、衛(wèi)星遙感、類腦科學(xué)、高能物理、天文物理、災(zāi)害模擬、媒體計(jì)算。
《白皮書(shū)》作出以上預(yù)測(cè)的模型,充分考量了兩個(gè)維度:場(chǎng)景應(yīng)用與大數(shù)據(jù)及AI的相關(guān)度、場(chǎng)景應(yīng)用數(shù)據(jù)量的規(guī)模及市場(chǎng)空間。
可以看到,這些應(yīng)用場(chǎng)景,有的是從傳統(tǒng)的HPC超算場(chǎng)景逐步演進(jìn)到HPDA場(chǎng)景,如基因測(cè)序,能源勘探等;有的原生地就是HPDA應(yīng)用,如自動(dòng)駕駛等。
另外,從數(shù)據(jù)規(guī)模角度,依照《白皮書(shū)》的說(shuō)法,上述10大數(shù)據(jù)密集型超算應(yīng)用場(chǎng)景,數(shù)據(jù)量規(guī)模起步都是PB級(jí)以上。
共48頁(yè)的《白皮書(shū)》,用了近20頁(yè)的篇幅對(duì)表格中前6個(gè)典型應(yīng)用場(chǎng)景作了分析。分析認(rèn)為,這些應(yīng)用場(chǎng)景雖然領(lǐng)域迥異、對(duì)計(jì)算平臺(tái)的需求也各有側(cè)重,但幾乎都共同指向未來(lái)超算要滿足對(duì)海量數(shù)據(jù)的計(jì)算需求、對(duì)各類應(yīng)用之間的高效互通的需求、對(duì)大內(nèi)存的容量要求、對(duì)存儲(chǔ)的極致性能要求、對(duì)高效算力的低功耗或綠色化要求。
紅色虛框中為面向2025的十大數(shù)據(jù)密集型應(yīng)用場(chǎng)景
7項(xiàng)建議,呼喚示范先行
從需求出發(fā),《白皮書(shū)》對(duì)數(shù)據(jù)密集型超算技術(shù)的建設(shè)提出了7條建議。這7條建議,直指超算自系統(tǒng)架構(gòu)而上的層層技術(shù)迭代,也直面E級(jí)超算、EB級(jí)應(yīng)用的“存儲(chǔ)墻”“編程墻”“功耗墻”,非常全面,現(xiàn)歸納如下。
1、采用異構(gòu)融合的新型 HPDA 架構(gòu)
超算最本質(zhì)的是算力。如今超算多采用異構(gòu)架構(gòu),以讓CPU、GPU、FPGA等不同的處理器發(fā)揮最大效用。但此舉也存在問(wèn)題,即計(jì)算單元各自為戰(zhàn)、硬件資源閑時(shí)高于用時(shí)!栋灼(shū)》認(rèn)為,超算架構(gòu)應(yīng)在異構(gòu)基礎(chǔ)上,再加上“融合”。用異構(gòu)融合的新型HPDA架構(gòu)一統(tǒng)超算,能夠最大化利用計(jì)算資源,更好發(fā)揮對(duì)海量數(shù)據(jù)的并行處理能力。
HPDA 融合架構(gòu)圖
2、打造存算分離的統(tǒng)一數(shù)據(jù)存儲(chǔ)底座
數(shù)據(jù)密集型超算,意味著場(chǎng)景應(yīng)用中的數(shù)據(jù)分析處理是“主角”。面對(duì)海量數(shù)據(jù)涌入,超算不能將大量機(jī)時(shí)浪費(fèi)在等數(shù)據(jù)的讀寫(xiě)上。這就是傳統(tǒng)超算的“存儲(chǔ)墻”難題!栋灼(shū)》提出,要打造存算分離的統(tǒng)一數(shù)據(jù)存儲(chǔ)底座,讓計(jì)算節(jié)點(diǎn)共享存儲(chǔ),讓熱數(shù)據(jù)、冷數(shù)據(jù)按需流動(dòng)。
另?yè)?jù)統(tǒng)計(jì),我國(guó)存力與算力之比約為1:2,對(duì)應(yīng)投資約為1:3,而美國(guó)這兩組數(shù)據(jù)均為1:1。從數(shù)據(jù)作為新生產(chǎn)資料的角度來(lái)看,存力的基礎(chǔ)地位日益彰顯;要改變當(dāng)前“重算力、輕存力”的現(xiàn)狀,未來(lái)我國(guó)還要在存力規(guī)劃上下功夫。
3、推進(jìn)全光化多網(wǎng)融合高速互聯(lián)網(wǎng)絡(luò)構(gòu)建
海量數(shù)據(jù)的流動(dòng)必然依賴高效的網(wǎng)絡(luò)傳輸,所謂高效,就是高帶寬、高IOPS、低時(shí)延!栋灼(shū)》提到,可從器件材料和傳輸技術(shù)兩個(gè)角度構(gòu)建未來(lái)高速互聯(lián)網(wǎng)絡(luò)。材料方面,提倡“光進(jìn)銅退”,即發(fā)展光通信技術(shù);技術(shù)方面,推動(dòng)超算內(nèi)部計(jì)算網(wǎng)、存儲(chǔ)網(wǎng)、數(shù)據(jù)網(wǎng)等的融合,同時(shí)降低成本。
4、使用低碳高效綠色節(jié)能的工程工藝
E級(jí)、10E級(jí)超算的挑戰(zhàn),除了計(jì)算性能,還有一個(gè)低功耗的“緊箍咒”!熬G色”是計(jì)算科學(xué)家們必須要去平衡的一個(gè)需求,這就是所謂的“功耗墻”。超算的能耗主要產(chǎn)自對(duì)器件的供電和散熱,因此要“破墻”,就須提高電源使用效率(降低PUE)和設(shè)備能源利用率。當(dāng)前水冷、液冷等技術(shù)發(fā)展較快,對(duì)降低PUE大有助益,而在提高設(shè)備能源利用率方面還缺乏有效措施!栋灼(shū)》提到,使用SSD閃存盤(pán)組成的存儲(chǔ)系統(tǒng)功耗較低,可作為參考方向。
5、構(gòu)建高效并行開(kāi)發(fā)和編譯環(huán)境
異構(gòu)融合的超算架構(gòu)需要解決CPU+GPU+XPU等異構(gòu)計(jì)算部件的并行編程難題,這就是超算的“編程墻”。《白皮書(shū)》提出,異構(gòu)編程架構(gòu)應(yīng)該基于現(xiàn)有的經(jīng)典并發(fā)模型,針對(duì)程序并行和數(shù)據(jù)并行,為用戶提供方便快捷的工具。
6、構(gòu)筑易用的國(guó)產(chǎn)應(yīng)用平臺(tái)支撐環(huán)境生態(tài)
建設(shè)超算,應(yīng)用是目標(biāo)。超算應(yīng)用是有門(mén)檻的,為此超算供應(yīng)商常用容器化技術(shù)將超算運(yùn)行環(huán)境封裝好,讓上層應(yīng)用與底層隔開(kāi),使普通用戶也能使用超算。不過(guò),即便如此,超算平臺(tái)因一端連接計(jì)算、一端連接行業(yè)應(yīng)用,能夠兼具計(jì)算知識(shí)和專業(yè)應(yīng)用的人才很少,一些共性難題須協(xié)同解決。因此《白皮書(shū)》認(rèn)為,要讓更多人參與到超算應(yīng)用開(kāi)發(fā)中,構(gòu)建良好超算生態(tài)。這就要求超算平臺(tái)要為用戶提供簡(jiǎn)單、易懂的可視化操作界面。
7、提供智能化集群管理運(yùn)維平臺(tái)
素來(lái)超算平臺(tái)的搭建都“人前風(fēng)光”,但建設(shè)超算只是開(kāi)始,超算運(yùn)維從來(lái)都不輕松。投射到數(shù)據(jù)密集型超算,更是要面對(duì)不同用戶巨量數(shù)據(jù)的管理,人工干預(yù)壓力更大。
《白皮書(shū)》提出,數(shù)據(jù)密集型超算中心未來(lái)要逐步實(shí)現(xiàn)規(guī)劃、建設(shè)、運(yùn)維、優(yōu)化的全生命周期數(shù)字化管理,逐步實(shí)現(xiàn)自動(dòng)化、無(wú)人化、智能化。但有鑒于運(yùn)維場(chǎng)景的多樣性和復(fù)雜性,不同運(yùn)維場(chǎng)景采用的 AI 算法差異巨大且通用性較差,通常需要多種 AI 算法的組合,智能運(yùn)維技術(shù)的成熟落地仍然是一個(gè)長(zhǎng)期演進(jìn)的過(guò)程。
超算從算力服務(wù)時(shí)代走向數(shù)據(jù)價(jià)值時(shí)代,數(shù)據(jù)密集型超算正當(dāng)時(shí)
后記
從上述形同技術(shù)要求的7條發(fā)展建議來(lái)看,數(shù)據(jù)密集型超算的建設(shè)不僅是一項(xiàng)系統(tǒng)工程,同時(shí)也關(guān)乎超算各項(xiàng)前沿技術(shù)的進(jìn)步與發(fā)展,直接影響著我國(guó)超算產(chǎn)業(yè)未來(lái)是否依然具備競(jìng)爭(zhēng)力。顯然,其建設(shè)與發(fā)展需要廣泛發(fā)動(dòng)產(chǎn)學(xué)研合作,共同攻關(guān)核心技術(shù)難題。
回過(guò)頭來(lái)看,此番湖南大學(xué)與華為攜手,就數(shù)據(jù)密集型超算領(lǐng)域涉及的國(guó)產(chǎn)自研并行文件系統(tǒng)、算力互聯(lián)網(wǎng)、智能存儲(chǔ)系統(tǒng)、數(shù)學(xué)庫(kù)優(yōu)化等關(guān)鍵技術(shù)展開(kāi)深入合作,就是產(chǎn)學(xué)研協(xié)同的一次有益嘗試;目標(biāo)就是推進(jìn)數(shù)據(jù)密集型超算的示范先行,進(jìn)而率先推出國(guó)際化的測(cè)評(píng)標(biāo)準(zhǔn),掌握話語(yǔ)權(quán)。
而縱觀美國(guó)人制定的各類評(píng)測(cè)形成的各類榜單對(duì)超算發(fā)展的策動(dòng)與影響,其中利害,不必多言。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車生態(tài)圈峰會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身智能機(jī)器人產(chǎn)業(yè)技術(shù)創(chuàng)新應(yīng)用論壇
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 AI視頻,攪動(dòng)1.5萬(wàn)億市場(chǎng)