公元前586年,耶路撒冷的第一圣殿被入侵的巴比倫軍隊(duì)摧毀,所羅門王朝的恢弘建筑只留下一座“嘆息之墻”。從此開始,“嘆息墻”經(jīng)常被比喻為那些時(shí)代難以跨越的鴻溝。在大數(shù)據(jù)與智能時(shí)代,千行百業(yè)擁有了前所未有的數(shù)據(jù)種類、數(shù)據(jù)存量和數(shù)據(jù)應(yīng)用方式,但這些海量的數(shù)據(jù)也同時(shí)造成了嚴(yán)苛的挑戰(zhàn),給很多行業(yè)、企業(yè)塑造了一道由數(shù)據(jù)組成的“嘆息墻”。
想要以超高的算力、多元化的智能算法攻克產(chǎn)業(yè)難題,拓展價(jià)值邊界,首先需要跨越數(shù)據(jù)鴻溝,將龐大的數(shù)據(jù)由負(fù)擔(dān)轉(zhuǎn)化為助力。
尤其對(duì)于HPC(高性能計(jì)算)場(chǎng)景來說,豐富的數(shù)據(jù)正在帶給計(jì)算體系以深刻的價(jià)值變革,推動(dòng)HPC的任務(wù)目標(biāo)、任務(wù)實(shí)現(xiàn)方式與應(yīng)用承載方式產(chǎn)生一系列升級(jí)。HPC正在走向HPDA(高性能數(shù)據(jù)分析)的躍遷之路。
3月23日,華為宣布創(chuàng)新數(shù)據(jù)基礎(chǔ)設(shè)施體驗(yàn)中心及行業(yè)創(chuàng)新體驗(yàn)中心在成都落成,該體驗(yàn)中心旨在搭建一個(gè)面向全球政府、金融、醫(yī)療、教育、能源等行業(yè)的技術(shù)交流與合作平臺(tái)。在參觀創(chuàng)新數(shù)據(jù)基礎(chǔ)設(shè)施體驗(yàn)中心的過程中,華為推出的下一代數(shù)據(jù)湖解決方案OceanStor Pacific讓我產(chǎn)生了不小的興趣。
讓我們從數(shù)據(jù)與計(jì)算的新發(fā)展周期說起,聊聊華為OceanStor Pacific給產(chǎn)業(yè)探索帶來的新可能。
不能讓數(shù)據(jù)成為“嘆息墻”:HDPA為何是大勢(shì)所趨?
以往的HPC場(chǎng)景,或者我們?cè)趶V泛定義中的超算系統(tǒng),雖然也要有存儲(chǔ)系統(tǒng)作為支撐,但其主要解決的是數(shù)值分析、模型分析等靠近數(shù)學(xué)側(cè)的問題。HPC的目標(biāo)相對(duì)單一,其價(jià)值主要是作為底層科研工具支撐社會(huì)的發(fā)展。
但隨著技術(shù)的進(jìn)步和產(chǎn)業(yè)需求的發(fā)展,超級(jí)算力正在與越來越多的現(xiàn)實(shí)產(chǎn)業(yè)與科技探索相結(jié)合。而這就引出了一個(gè)關(guān)鍵的問題:HPC系統(tǒng)需要應(yīng)對(duì)、存儲(chǔ)、調(diào)用非常復(fù)雜的現(xiàn)實(shí)數(shù)據(jù)。
在今年,新冠疫苗成為了社會(huì)關(guān)注度最高的話題之一,而疫苗研發(fā)的背后就有HPC對(duì)蛋白質(zhì)分析、病毒模型解析等海量數(shù)據(jù)的處理能力。這場(chǎng)全球抗疫的關(guān)鍵賽跑,同時(shí)也蘊(yùn)含著算力與數(shù)據(jù)間的一場(chǎng)競(jìng)賽。
HPC與真實(shí)產(chǎn)業(yè)、現(xiàn)實(shí)場(chǎng)景結(jié)合的案例正在不斷激增,自動(dòng)駕駛、油氣勘探、精準(zhǔn)天氣預(yù)報(bào)、天文觀察等等場(chǎng)景,既需要強(qiáng)大的算力,同時(shí)也需要計(jì)算系統(tǒng)負(fù)載和處理差異化明顯的不同數(shù)據(jù)。比如自動(dòng)駕駛需求處理大量視頻與傳感數(shù)據(jù)、交通安全需要處理海量圖片數(shù)據(jù),而這些數(shù)據(jù)帶來的壓力,構(gòu)成了超算體系進(jìn)入智能時(shí)代的主要挑戰(zhàn)和進(jìn)化方向。隨著計(jì)算能力本身的提升,加上大數(shù)據(jù)、AI等新興技術(shù)與傳統(tǒng)HPC的結(jié)合,超算系統(tǒng)走向數(shù)據(jù)密集型、多元化處理能力已經(jīng)成為了確定性需求,這也就是從HPC到HDPA的演變必然性。
而想要確保這場(chǎng)演變順利完成,我們可以發(fā)現(xiàn)超算系統(tǒng)需要克服三大挑戰(zhàn):
1、首先是數(shù)據(jù)量的持續(xù)指數(shù)級(jí)增長(zhǎng)。
以油氣勘探生成3D模型為例,模型的精準(zhǔn)化將帶來十倍的數(shù)據(jù)膨脹;而一輛自動(dòng)駕駛汽車測(cè)試,每天就將產(chǎn)生60TB的必須長(zhǎng)期保存數(shù)據(jù)。應(yīng)對(duì)真正的海量數(shù)據(jù),成為了HDPA時(shí)代的第一課。
2、數(shù)據(jù)負(fù)載類型多元化。
與傳統(tǒng)的數(shù)據(jù)存放類型相比,新周期的數(shù)據(jù)負(fù)載將出現(xiàn)數(shù)據(jù)多樣化統(tǒng)一存放、處理的巨大變革。并且在數(shù)據(jù)混合負(fù)載的基礎(chǔ)上,還需要支撐更頻繁、便捷的數(shù)據(jù)調(diào)用、數(shù)據(jù)遷移等操作,給數(shù)據(jù)體系帶來了眾多全新壓力。
3、數(shù)據(jù)相關(guān)應(yīng)用復(fù)雜化。
目前階段,AI技術(shù)正在成為算力投放的主要標(biāo)的,數(shù)據(jù)應(yīng)用的主要輸出點(diǎn)。但AI算法本身復(fù)雜多元,個(gè)性化極強(qiáng)。這意味著智能時(shí)代的超算相關(guān)應(yīng)用將極大復(fù)雜化,帶給數(shù)據(jù)存儲(chǔ)以額外的挑戰(zhàn)。
這些挑戰(zhàn)意味著,數(shù)字經(jīng)濟(jì)時(shí)代HPC正在由計(jì)算密集型走向存儲(chǔ)密集型。與此同時(shí)可以看到,HPC已經(jīng)成為大國(guó)科技競(jìng)賽中的重要賽道。在HPC體系中,數(shù)據(jù)基礎(chǔ)設(shè)施又處在發(fā)展相對(duì)緩慢的一環(huán)。2020年開始,超算中心已經(jīng)成為“新基建”規(guī)劃中的主要建設(shè)方向,而新基建中的超算中心,顯然應(yīng)該是能夠承載多樣化數(shù)據(jù)、海量數(shù)據(jù)規(guī)模,與國(guó)計(jì)民生緊密相聯(lián)的計(jì)算體系。而這就需要能夠支撐HPDA演變的數(shù)據(jù)基礎(chǔ)設(shè)施升級(jí)。
為此,華為推出了OceanStor Pacific系列下一代數(shù)據(jù)湖存儲(chǔ),推動(dòng)HPC向HPDA加速演進(jìn)。
下一代數(shù)據(jù)湖:華為海量存儲(chǔ),OceanStor Pacific帶來的變革
從HPC向HPDA演進(jìn),首當(dāng)其中是要提升各產(chǎn)業(yè)數(shù)據(jù)中心、超算系統(tǒng)的數(shù)據(jù)存儲(chǔ)、負(fù)載、調(diào)用能力,而這就需要數(shù)據(jù)湖相關(guān)產(chǎn)品完成能力上的進(jìn)化升級(jí)。
2011年,業(yè)界開始出現(xiàn)數(shù)據(jù)湖相關(guān)概念,所謂數(shù)據(jù)湖,是指對(duì)自然、原始格式數(shù)據(jù)進(jìn)行全量存儲(chǔ)的數(shù)據(jù)基礎(chǔ)設(shè)施。數(shù)據(jù)湖可以承載原始數(shù)據(jù)直接存放的容量挑戰(zhàn),同時(shí)支持AI、可視化、大數(shù)據(jù)分析等關(guān)鍵應(yīng)用的演進(jìn)。
作為HPC的數(shù)據(jù)搭檔,數(shù)據(jù)湖需要在HPDA演進(jìn)中扮演關(guān)鍵角色。在目前階段,新車的研發(fā)時(shí)間由6年縮短為2年,基因測(cè)序時(shí)長(zhǎng)由13年縮短為僅僅1天,油氣勘探的精度由二維提升到三維,這背后都需要數(shù)據(jù)湖完成數(shù)據(jù)存放、調(diào)用的支撐。
在華為看來,數(shù)據(jù)湖的升級(jí)演進(jìn)主要需要完成三大目標(biāo):
1、超高密設(shè)計(jì):數(shù)據(jù)基礎(chǔ)設(shè)施的升級(jí),不能以無(wú)限制投入空間和投資為代價(jià),所以數(shù)據(jù)湖產(chǎn)品的高密設(shè)計(jì)是必由之路。存儲(chǔ)產(chǎn)品需要在有限的空間下,完成海量數(shù)據(jù)的有效存放。
2、面向混合負(fù)載:面向產(chǎn)業(yè)級(jí)的超算體系,一套存儲(chǔ)必須支持支持不同業(yè)務(wù)流程、產(chǎn)業(yè)環(huán)節(jié)的混合負(fù)載。以油氣勘探為例,過往數(shù)據(jù)采集、解釋、處理每個(gè)環(huán)節(jié)的業(yè)務(wù)能力對(duì)存儲(chǔ)的需求都不同,只能搭建多套存儲(chǔ)來應(yīng)付,而這會(huì)造成大量遷移成本和風(fēng)險(xiǎn)。數(shù)據(jù)湖產(chǎn)品必須實(shí)現(xiàn)多數(shù)據(jù)、多業(yè)務(wù)的混合負(fù)載,完成對(duì)產(chǎn)業(yè)級(jí)超算的支撐。
3、多協(xié)議快速流轉(zhuǎn):面向產(chǎn)業(yè)超算需求,存儲(chǔ)體系需要能夠支撐不同數(shù)據(jù)類型的打通,支持多種數(shù)據(jù)種類、模塊之間的快速流轉(zhuǎn)。
面對(duì)這些趨勢(shì),華為已經(jīng)推出了全棧化的下一代數(shù)據(jù)湖解決方案。去年年底,華為正式推出了海量存儲(chǔ)OceanStor Pacific,能夠滿足HPC向HPDA的演進(jìn)需求。OceanStor Pacific支持4096個(gè)節(jié)點(diǎn),能夠支持混合負(fù)載、融合協(xié)議互通,可以說是為高性能計(jì)算、大數(shù)據(jù)乃至視頻存儲(chǔ)構(gòu)建的新一代的數(shù)據(jù)湖存儲(chǔ)。
OceanStor Pacific分為兩款硬件。一款是被華為戲稱為“超級(jí)跑車”的OceanStor Pacific 9950,其高密設(shè)計(jì)可以有效解決海量數(shù)據(jù)的機(jī)房空間、能源消耗問題。高密高性能全閃存硬件,可以實(shí)現(xiàn)5U空間支持80個(gè)Half Palm盤,每U IOPS領(lǐng)先業(yè)界60%,每U帶寬領(lǐng)先業(yè)界30%。而高密大容量硬件OceanStor Pacific 9550,則被稱為“容量怪獸”,5U空間可以放置120塊大容量HDD盤,實(shí)現(xiàn)“1臺(tái)頂三臺(tái)”的容量提升。與此同時(shí),OceanStor Pacific還在高密空間、便捷維護(hù)、散熱性能等設(shè)計(jì)上獨(dú)樹一幟,實(shí)現(xiàn)下一代數(shù)據(jù)湖價(jià)值的全面釋放。
HDPA時(shí)代,我們將見證的數(shù)據(jù)聚變
從華為OceanStor Pacific帶來的數(shù)據(jù)湖升級(jí)價(jià)值,我們已經(jīng)可以看到海量存儲(chǔ)升級(jí)為HPDA時(shí)代帶來的價(jià)值演進(jìn)。在數(shù)據(jù)基礎(chǔ)設(shè)施的升級(jí)下,超算體系可以更緊密與物理世界的海量數(shù)據(jù)融合,帶來超算能力參與到產(chǎn)業(yè)一線、科研前沿的全新可能。同時(shí),智能化技術(shù)也可以在海量數(shù)據(jù)存儲(chǔ)的升級(jí)下得到更好支撐,我們知道數(shù)據(jù)、算法和算力是智能三要素,而數(shù)據(jù)的便捷、可靠、大容量,是產(chǎn)業(yè)級(jí)智能升級(jí)的開始。
HPDA時(shí)代,超算能力將從算力密集型的數(shù)學(xué)、機(jī)械等領(lǐng)域,向數(shù)據(jù)密集型的天文、物理、化學(xué)、地質(zhì),以及千行百業(yè)的生產(chǎn)力一線進(jìn)發(fā)。而我們已經(jīng)可以看到華為OceanStor Pacific在很多案例中帶來了這種價(jià)值改變。
比如在全球著名的SKA天文望遠(yuǎn)鏡陣列中,上海天文臺(tái)就與華為合作,搭建了世界首臺(tái)SKA區(qū)域中心原型機(jī)核心業(yè)務(wù)存儲(chǔ)系統(tǒng)。在存儲(chǔ)能力升級(jí)的前提下,探索宇宙身處奧秘的SKA得到了更強(qiáng)的數(shù)據(jù)處理效率,加速了人類打開未知世界大門。
在挪威Lundin石油的深海油氣勘業(yè)務(wù)中,華為幫助其建設(shè)了匹配新型油藏模擬技術(shù)的存儲(chǔ)基礎(chǔ)架構(gòu),實(shí)現(xiàn)數(shù)據(jù)高效存儲(chǔ)、分析,并且能夠有效提升勘探精度,大幅度油氣勘探效率。在華為OceanStor 海量存儲(chǔ)的幫助下,挪威Lundin石油實(shí)現(xiàn)了冷數(shù)據(jù)分層存儲(chǔ),存儲(chǔ)空間節(jié)省了73%,遠(yuǎn)程復(fù)制容災(zāi)效率極大提升。
這些案例僅僅是HPDA時(shí)代的開端,我們已經(jīng)可以看到,在自動(dòng)駕駛、基因測(cè)序、電影渲染、精準(zhǔn)天氣預(yù)報(bào)、金融反欺詐等領(lǐng)域,海量存儲(chǔ)有著廣泛的應(yīng)用前景,并且是數(shù)據(jù)計(jì)算能力提升的必然需求。
在HPDA時(shí)代,如山似海的數(shù)據(jù)不再會(huì)是產(chǎn)業(yè)發(fā)展的“嘆息墻”,而是行業(yè)智能化的跑道與發(fā)動(dòng)機(jī)。