部落格

产业趋势

AI 用于1U伺服器多热源散热风扇节能可行性研究

■研究背景

隨著科技的成長,需要被存儲、傳送、計算等的資料也愈來愈龐大,為了方便管理與規模發展,設置各式高密度伺服器的設施作為數據中心,而未來隨著物聯網、雲存儲、大數據、人工智能和5G等領域的加速發展,對身為數據和信息處理平臺的數據中心,其需求也將越來越大,而數據中心在運行時會產生高密度的廢熱,這些廢熱主要是由每一櫃中的數個伺服器所產生,因此若未能有效地進行散熱,容易導致系統過熱無法正常運行,因此對數據中心的伺服器性能的穩定性、高速運算中的可靠度、資訊傳送的安全性以及攸關整體成本的能源損耗,由此可知伺服器系統的相依性與複雜性日益增加。

根據美國2014年數據中心使用電力佔比[1],能源損耗中有40%用於散熱伺服器所產生的熱量,因此減少冷卻系統的能耗成為近年來非常重要的研究,除了可以更有效率的使用能源之外,還能大幅度減少能源成本。而這也顯示數據中心在未來勢必要在伺服器性能上的需求以及減緩能源成本兩者之中取得平衡。

 

 

■研究方法

1.深度強化學習

本研究採用的是深度強化學習中的深度確定性策略梯度演算法,該演算法基於馬可夫決策過程,透過環境與代理人不斷反覆的互動,並將每一次的互動記錄下來存入資料庫中,累積一定數量的資料量後,便隨機批量抽取資料庫中的資料去進行訓練。而在演算法模型訓練過程中含有兩個神經網絡,分別為目標和評估神經網絡,評估神經網絡在每次的損失梯度會更新一次參數,而目標神經網絡則是在每次的計算中僅會緩慢的更新,相對於評估神經網絡,可將其視為一個固定的參考點,幫助評估神經網絡在計算中能夠更穩定的收斂。最後則是去更新actor神經網絡參數,藉此方法去優化actor神經網絡,幫助代理人在不同情況下找到一個合適的操作點作為決策。

而代理人與環境互動過程中,為使代理人了解系統內部的狀況,因此需要透過一些指標參數使代理人認識目前伺服器內的情況,因此這邊主要分為三大類作為指標,分別為熱源特徵、環境與內部配置,以及風扇配置,這三個組合中都有數個參數指標作為觀測特徵值的參考,而在本研究中代表動作值的為風扇當前轉速的工作週期作為輸出動作。

代理人與環境經過一次互動後會產生一個獎勵值,該值為根據互動結果給予獎勵評估動作的優劣,同時也作為訓練critic神經網絡的重要參考依據,進而影響代理人最終行為方向。因此為了有效進行散熱控制,本研究中影響散熱量的鰭片效率和熱傳面積在散熱設計中已被固定,後續的控制上無法改變;而熱傳係數則受到風扇所帶動的流量影響,且從風扇定律可得知,風扇轉速為影響系統功耗的重要因素,同時也是影響能耗的最大指標;最後則是有效溫度差會受風扇轉速的影響,而本研究中須將熱源溫度控制在正常運作範圍內,避免元件過熱損毀前提下提升伺服器的節能空間,藉由獎勵值給予代理人評估動作。

 

 2.伺服器暫態環境模擬

(1 實際伺服器配置)

圖 1為市面上的伺服器,可以看到伺服器的配置複雜且空間狹小,因此本研究對伺服器熱傳模型做了簡化,首先假設伺服器為單一入出口的通道,且沒有因外部流場造成的額外壓差,在此條件下,風扇靜壓等於通道總壓降,並忽略強制對流的發展流影響因素,且散熱器的冷卻行為僅依靠其入口正面面積範圍流入的空氣進行冷卻,忽略周圍旁通道的冷卻效應,最後則是將其流入的空氣在通過散熱器的過程不會外洩至周圍的旁通道。

除了上述幾點假設,亦對伺服器內的熱源分布規律進行簡化,假設伺服器內的熱源模組分布按照流動方向區分出不同列,每列串聯形成上下游,下游入口會繼承上游的出口流體性質;同列之間散熱器並排形成多個並聯的通道關係。藉由上述的散熱器分布假設,伺服器內的空間切割成多個假想的通道,而在單一流道內只能存在一個散熱器,且散熱器無法完全佔據流道截面,來形成旁通現象的幾何配置。而在忽略流道邊側輪廓的差異下,此幾何模型可近似為Jonsson[2]的研究模型,因此以其壓降與紐森數經驗式來描述散熱器性能。

 

 

■初步結果

目前已完成初步的統御控制模型,而在本研究中模型所適用的1U伺服器環境配置參數範圍如下表 1所示,圖表 1則是後續進行模擬伺服器的環境參數及配置示意圖,各編號區塊為一個熱源模組,其中包含發熱源及散熱器,圖 2則是模擬所採用的風扇性能。

 

針對傳統開關控制方法與演算法控制結果去進行比較。圖 2及圖 3的模擬結果可以發現,雖然這兩種方法皆能有效地去控制溫度,傳統控制方法的能耗為演算法控制的109%,而演算法控制能夠將最大熱源溫度控制在其上限附近,以最大有效熱傳溫差進行散熱,盡可能減少使用風扇來散熱,由此可發現藉由演算法來進行控制,有效幫助達到較大的節能成效。

 

雖然透過演算法的控制已能有效提升節能效果,但對於節能的成效還有更進步的空間,因此在延續前一次的架構,改變風扇的控制方法來比較溫度的控制和節能的效果。圖 4為每次只改變一個風扇去進行控制結果,在一開始較無法能馬上回饋給溫度,但在後期對溫度的控制來說是較穩定,動盪幅度較平穩;圖 5則為將風扇分為數個區域,而每一個區域裡有數個風扇,每次改變的風扇以區為單位,對於溫度的控制來說是較為即時,但同時因為一次改變較多的風扇,對整體流量的影響也會增加,溫度產生較劇烈的震盪,其節能的效果則是相對較差的結果。

■結論

藉由大數據的資料庫去進行模型訓練,有效幫助我們減少設計伺服器配置的時間成本,且也能夠根據不同的工作狀態去給予較合適的動作,降低伺服器在散熱上的能耗。而從目前的研究結果顯示,透過演算法能夠幫助我們控制熱源的溫度,避免過熱現象的發生,且能以最大有效溫差去進行散熱,再搭配風扇去進一步的散熱,減少風扇的能耗使用率,提升整體系統的節能空間;後續將持續進行智能控制的優化,並擴充至機櫃與機房的應用。

 

 

■參考文獻

[1] 2020, "How Much Energy Do Data Centers Really Use?," Energy Innovation: Policy and Technology LLC. https://energyinnovation.org/2020/03/17/how-much-energy-do-data-centers-really-use/

[2] H. Jonsson and B. Moshfegh., 2001, "Modeling of the thermal and hydraulic performance of plate fin, strip fin, and pin fin heat sinks-influence of flow bypass," IEEE TRANSACTIONS ON COMPONENTS AND PACKAGING TECHNOLOGIES, VOL. 24, NO. 2, JUNE 2001, pp. 142-149.

 

 

文字編輯 高柏科技團隊


 

作者
王啟川教授
學歷 | 國立交通大學博士
專長 | 電子散熱、雲端運算能源管理、海水淡化、非傳統流體機械開發與應用、冷凍空調、超臨界流體系統與熱交換器(軟硬體)、LED散熱、微通道熱流設計(單、雙相流體應用)

TOP