1 引言
隨著大數(shù)據(jù)、云計算等技術的高速發(fā)展,數(shù)字經(jīng)濟已經(jīng)成為我國經(jīng)濟發(fā)展的重要戰(zhàn)略,高密度數(shù)據(jù)中心作為承載技術與產(chǎn)業(yè)的實體,是傳統(tǒng)工業(yè)向信息化轉型的關鍵“新基建”。因此,對數(shù)據(jù)中心的全方位優(yōu)化部署成為了從業(yè)者的迫切追求。衡量數(shù)據(jù)中心性能的標準即為可定義、可量化的一系列數(shù)據(jù)中心關鍵參數(shù)。本文希望研究利用機器學習算法進行數(shù)據(jù)中心參數(shù)自動優(yōu)化的典型關鍵技術,特別是研究聚焦在“基礎設施層”和“服務器層”等核心參數(shù)的具體優(yōu)化方法,以形成數(shù)據(jù)中心參數(shù)自動優(yōu)化的設計路徑。
2 數(shù)據(jù)中心關鍵參數(shù)分析
本文研究的關鍵參數(shù)包括:數(shù)據(jù)中心能源利用效率(Power Usage Effectiveness,PUE)、風機水泵等基礎設施系統(tǒng)設備耗電量;網(wǎng)絡傳輸性能如時延、丟包率、吞吐量等;數(shù)據(jù)中心的可靠性、可用性等。
2.1 PUE
全球通用的數(shù)據(jù)中心核心關鍵指標是PUE[1],該指標最早于2007年由綠色網(wǎng)格組織(The Green Grid,TGG)提出,用來評價數(shù)據(jù)中心能源利用效率,并得到廣泛使用。
PUE的定義為:PUE=Pall/PIT,其中Pall指的是一個數(shù)據(jù)中心的全年總體累計電能消耗,單位為kWh;PIT為整個數(shù)據(jù)中心的IT設備全年累計電能消耗,單位同樣為kWh。因此,PUE為一個沒有單位的參數(shù),且最小值為1。
2.2 數(shù)據(jù)中心基礎設施耗電量分析
隨著產(chǎn)業(yè)和規(guī)模的發(fā)展,數(shù)據(jù)中心能耗成為社會廣泛關注的問題。對于從業(yè)者而言,實現(xiàn)數(shù)據(jù)中心的綠色化發(fā)展也是體現(xiàn)技術水平的重要方面之一。因此,近年來數(shù)據(jù)中心行業(yè)對各種設備的能源消耗日益關注,基礎設施的耗電量成為最為關鍵的技術參數(shù)之一。
2.2.1 冷水機組
冷水機組是大型數(shù)據(jù)中心制冷架構中的核心設備,其工作原理是由一個多功能的機器,通過內(nèi)部工質的壓縮或膨脹來完成制冷循環(huán)。在制冷行業(yè)中,通常冷機可以分為風冷式和水冷式兩種,根據(jù)壓縮機的不同種類,水冷型的冷機又分為螺桿式冷水機組和離心式冷水機組,在大型數(shù)據(jù)中心領域常見的是水冷型離心機組。根據(jù)調研,冷機是數(shù)據(jù)中心暖通系統(tǒng)中耗電量最大的單體設備,主要耗電部件是壓縮機。
2.2.2 風機
在數(shù)據(jù)中心基礎設施系統(tǒng)中,風機的功耗占據(jù)著僅次于冷水機組的耗電類設備第二大比例。在IDC制冷架構設備中,采用風機設備的風冷精密空調整體耗能比水冷型高15%。因此,從空調制冷,到冷板式制冷,再到浸沒式制冷,制冷末端在逐漸向熱源逼近。液冷技術直接利用冷卻液直接/間接給IT設備芯片散熱,效率較高。
2.2.3 水泵
在數(shù)據(jù)中心運維階段,通常水泵的運行頻率對各類制冷設備整體的總能耗起關鍵作用。因此,水泵的能耗成為被關注的另一個耗電量核心參數(shù)。
2.3 網(wǎng)絡傳輸參數(shù)
隨著網(wǎng)絡的快速發(fā)展和普及,互聯(lián)網(wǎng)規(guī)模不斷擴大,涌現(xiàn)出很多新型網(wǎng)絡應用和服務,例如高清視頻會議、在線游戲和網(wǎng)絡直播等。不同的數(shù)據(jù)中心應用對以下3個指標有不同側重點需求。
?。?)吞吐量:表征的是網(wǎng)絡架構中主機之間的傳輸速率,表現(xiàn)為單位時間長度內(nèi)的傳輸數(shù)據(jù)總量,常用單位為kbit/s和Mbit/s。
?。?)時延:有單向時延和端到端時延兩種概念,單向時延指E1發(fā)送數(shù)據(jù)報文的時間與E2接收數(shù)據(jù)報文的時間之差,端到端時延是分組時延、單向(網(wǎng)絡)時延、抖動緩沖時延和附加固定時延(如果有)的總和。與單向時延一樣,端到端時延在端點之間是單向的,但擴展到硬件,包含所有延遲因素。
?。?)丟包率:是丟失IP包數(shù)與所有發(fā)送的IP包數(shù)的比值,衡量網(wǎng)絡架構性能的一個重要參數(shù)。通常數(shù)據(jù)在網(wǎng)絡傳遞中會發(fā)生丟失現(xiàn)象,經(jīng)常和網(wǎng)絡轉發(fā)質量、末端間距等因素相關。
2.4 數(shù)據(jù)中心可靠性和可用性
數(shù)據(jù)中心的重要性在于支持企業(yè)應用不間斷運行。近年來,世界各地的數(shù)據(jù)中心經(jīng)常發(fā)生一些安全故障事件,一次次沖擊著用戶的心理防線。因此,數(shù)據(jù)中心可靠性和可用性是衡量其綜合性能的關鍵參數(shù)。
?。?)可靠性(Reliability),指某個設備或系統(tǒng)在一個指定的時間內(nèi)能夠無故障地持續(xù)穩(wěn)定運行的可能性。人們通常用平均無故障時間(Mean Time Between Failure,MTBF)這一指標來量化它,MTBF反映了產(chǎn)品的時間質量。
?。?)可用性(Availability),指系統(tǒng)在使用過程中MTBF與總時間(MTBF+MTTR)之比(其中MTTR為平均修復時間),其計算公式是A=MTBF/(MTBF+MTTR)。可用性是衡量一個數(shù)據(jù)中心整體或者設備穩(wěn)定運行能力的指標,比率越無限接近1.0,穩(wěn)定性越好。
以上不同關鍵參數(shù)基本可以對一個數(shù)據(jù)中心進行整體綜合評價,這使得數(shù)據(jù)中心基礎設施的設計有了可量化的目標,也使得評估有了可量化的依據(jù)。
3 針對參數(shù)優(yōu)化的機器學習算法
在信息通信領域,機器學習算法技術在過去幾年越來越受到重視。這些算法的目的是找到相關參數(shù)之間的關聯(lián)程度,并以此去規(guī)劃執(zhí)行動作,從而對目標參數(shù)進行集成優(yōu)化。集成優(yōu)化是指對數(shù)據(jù)中心五層架構的統(tǒng)一調度,其中尤為重要的是風火水電和IT軟件硬件資源之間的優(yōu)化[2]。人工智能、云計算和大數(shù)據(jù)技術的發(fā)展,催生基于海量數(shù)據(jù)進行預測并輸出建議的機器學習算法進展迅速。機器學習算法種類繁多,其中針對目標參數(shù)進行關系擬合、優(yōu)化的算法基本分為三大類。
?。?)監(jiān)督學習:監(jiān)督學習問題可以分為兩類,一類是回歸,輸出結果是數(shù)字,如城市交通流量、設備運行速度;一類是分類,輸出結果是類別,如男性或者女性、睡眠或者清醒。
(2)無監(jiān)督學習:無監(jiān)督學習問題可以分為3類,一類是關聯(lián),該方法是為了找出各種情況出現(xiàn)的概率,廣泛地運用于購物車分析(電子商務領域)中;一類是聚類,把樣本分堆,使同一堆中的樣本之間很相似,而不同堆之間的樣本就有些差別;還有一類是降維,減少數(shù)據(jù)集中變量的個數(shù),但是仍然保留重要的信息。
?。?)強化學習:通過學習那些能夠最大化獎勵的行為是什么,然后根據(jù)當前狀態(tài)來決定最優(yōu)下一步行動。此算法通常用在機器人開發(fā)中,經(jīng)常使用試錯的方式來學習最佳行動。機器人可以通過在撞到障礙物后接收到的負反饋來學習如何避免碰撞。例如,在視頻游戲里,試錯行為能發(fā)現(xiàn)那些給予玩家獎勵的特定動作。行動主體就能用這些正向獎勵來理解游戲中的最佳情形,并選擇下一步行動。
4 基于機器學習的數(shù)據(jù)中心參數(shù)自動優(yōu)化關鍵技術
機器學習算法是一個在不斷發(fā)展中的邊界不明確的技術領域,如基本類別監(jiān)督學習和非監(jiān)督學習的算法分類目前尚存爭議[3]。機器學習界的一個最鮮明的特點就是算法眾多,思想各不相同,發(fā)展各有路徑。因此,業(yè)內(nèi)廣泛接受的一個事實是:沒有任何一種機器學習算法可以適用所有應用場景,可以說是一類各方探討進程中的典型技術。根據(jù)各類學習算法的特征優(yōu)勢,數(shù)據(jù)中心領域展開了多種算法實踐,其中的典型參數(shù)自動優(yōu)化算法如下。
4.1 應用監(jiān)督學習算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
監(jiān)督式學習在數(shù)據(jù)中心參數(shù)調優(yōu)中的典型技術是“運維參數(shù)優(yōu)化”,其主要思想就是驅動系統(tǒng)設備跟隨運維人員從歷史數(shù)據(jù)中學習,運維人員就像是一個“師傅”,將自己的領域知識“教” 給系統(tǒng),然后系統(tǒng)根據(jù)“學”到的知識來自動選擇合適的檢測器和算法參數(shù)。運維人員首先在歷史數(shù)據(jù)中標記出異常,接著使用十幾種不同類型的檢測器提取出上百個異常特征,此時有了人工標記的數(shù)據(jù)和異常特征;然后,將異常檢測問題轉化成機器學習中監(jiān)督式的分類問題,分析算法中參數(shù)的分布規(guī)律和不同參數(shù)下學習效果的評估,并將此規(guī)律應用于機器學習的模型訓練,達到自動選擇合適參數(shù)的目的。
4.2 應用無監(jiān)督學習算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
無監(jiān)督算法的一個應用是對大型服務器集群內(nèi)部的故障進行根因故障分析,以此提高數(shù)據(jù)中心的可靠性參數(shù)。目前,業(yè)界基于人工智能的運維以告警事件、業(yè)務日志、網(wǎng)絡及業(yè)務拓撲等為研究管理對象,通過算法智能降噪、算法智能聚類的管理過程,依托無監(jiān)督方式的機器學習算法技術來實現(xiàn)智能事件關系整合,在海量的故障事件中高速、精準定位問題,解析原因,提高解決問題的速度。
這種技術在對服務器進行故障分析時具備典型的優(yōu)勢:首先是多元IT數(shù)據(jù)接入,融合告警事件、監(jiān)控日志、流量、網(wǎng)絡拓撲等多維度數(shù)據(jù)接入;其次是大數(shù)據(jù)算法降噪,通過智能算法進行數(shù)據(jù)的降噪處理,高效的實時數(shù)據(jù)處理能力,海量數(shù)據(jù)的多維管理;第三是數(shù)據(jù)聚類和關聯(lián),通過算法進行智能關聯(lián)性匹配并聚合歸類,產(chǎn)生新的數(shù)據(jù)模型;第四是智能根因推薦,依據(jù)IP、業(yè)務、歸屬等多維度進行智能化語義分析,快速推薦當前情境下的故障根因;最后是知識庫積累復用,可以構建一套知識體系與歷史事件分析的過程,即針對過去事件與當前告警智能提供匹配列表。
4.3 應用強化學習算法的數(shù)據(jù)中心參數(shù)自動優(yōu)化
用強化學習算法去優(yōu)化PUE是對傳統(tǒng)數(shù)據(jù)中心控制系統(tǒng)技術的突破性顛覆,也是目前機器學習算法在數(shù)據(jù)中心參數(shù)優(yōu)化的最成功實踐。這種算法運用機器學習、統(tǒng)計學以及模糊控制等技術和方法對數(shù)據(jù)進行處理、對各類相關設備進行系統(tǒng)化分析和決策,從而達到優(yōu)化數(shù)據(jù)中心整體PUE的目的。通過對當前運行數(shù)據(jù)的清洗、分析和挖掘,預測未來的控制動作。整個過程采用機器學習算法的模型進行訓練。從強化學習算法用于優(yōu)化數(shù)據(jù)中心參數(shù)的成果來看,該方法收益顯著。例如,谷歌公司使用其機器學習系統(tǒng),自動管理其數(shù)據(jù)中心的冷卻架構,并持續(xù)分析21個變量,如空氣溫度、功率負載和內(nèi)部氣壓等。2018年,谷歌公司利用機器學習算法將冷卻系統(tǒng)所需的能耗減少40%,實現(xiàn)PUE值為1.06的良好成績。
5 結束語
自2013年起,中國信息通信研究院云計算與大數(shù)據(jù)研究所測試過眾多數(shù)據(jù)中心的PUE,其中表現(xiàn)良好的大部分為互聯(lián)網(wǎng)和通信行業(yè)大型數(shù)據(jù)中心。測試結果顯示,參測數(shù)據(jù)中心PUE已經(jīng)由1.4~1.5區(qū)間降低到1.2~1.3區(qū)間,最佳PUE在不斷創(chuàng)新低?;跈C器學習的典型算法在數(shù)據(jù)中心的PUE等參數(shù)優(yōu)化中已經(jīng)有了不同的應用。未來,機器學習算法將與ICT領域的新技術產(chǎn)生更多交集,形成更多方向、更加深入的研究課題,通過算法與實際業(yè)務的結合,實現(xiàn)更大的收益。