首页 媒体中心 返回上页
2021.06.01
产业趋势

AI 用于1U伺服器多热源散热风扇节能可行性研究

分享:

■研究背景

随着科技的发展,数据量在存储、传输和计算等方面越来越大。为了方便管理和应对规模扩张,各种高密度服务器设施作为数据中心已被建立。未来随着物联网、云存储、大数据、人工智能和5G等领域的迅速发展,对作为数据和信息处理平台的数据中心的需求也将不断增加。数据中心在运行过程中会产生高密度的废热,这些废热主要来自每个机柜中的多个服务器。如果不能有效地散热,就容易导致系统过热无法正常运行。因此,数据中心对服务器性能的稳定性、高速运算的可靠性、信息传输的安全性以及涉及整体成本的能源损耗至关重要。由此可见,服务器系统的依赖性和复杂性日益增加。

根据美国2014年数据中心用电比例[1],能源损耗中有40%用于散热服务器产生的热量。因此,减少冷却系统的能耗成为近年来非常重要的研究课题。除了可以更有效地利用能源之外,还能大幅度减少能源成本。这也显示了数据中心未来必须在服务器性能需求和减缓能源成本两者之间取得平衡。

 

■研究方法

  1. 深度强化学习

本研究采用的是深度强化学习中的深度确定性策略梯度算法。该算法基于马尔科夫决策过程,通过环境与代理人不断交互,并将每一次的交互记录存入数据库中,累积一定数量的数据量后,随机批量抽取数据库中的数据进行训练。在算法模型训练过程中包含两个神经网络,分别为目标和评估神经网络。评估神经网络在每次的损失梯度会更新一次参数,而目标神经网络则在每次的计算中只会缓慢地更新,相对于评估神经网络,可以将其视为一个固定的参考点,帮助评估神经网络在计算中更稳定地收敛。最后则是去更新actor神经网络参数,通过这种方法去优化actor神经网络,帮助代理人在不同情况下找到一个合适的操作点作为决策。

代理人与环境交互过程中,为使代理人了解系统内部的状况,因此需要通过一些指标参数使代理人认识当前服务器内的情况。因此这里主要分为三大类作为指标,分别为热源特征、环境与内部配置,以及风扇配置,这三个组合中都有数个参数指标作为观测特征值的参考,而在本研究中代表动作值的为风扇当前转速的工作周期作为输出动作。代理人与环境经过一次交互后会产生一个奖励值,该值根据交互结果给予评估动作的优劣,同时也作为训练critic神经网络的重要参考依据,进而影响代理人最终行为方向。因此为了有效进行散热控制,本研究中影响散热量的鳍片效率和热传面积在散热设计中已被固定,后续的控制上无法改变;而热传系数则受到风扇所带动的流量影响,且从风扇定律可得知,风扇转速为影响系统功耗的重要因素,同时也是影响能耗的最大指标;最后则是有效温度差会受风扇转速的影响,而本研究中须将热源温度控制在正常运作范围内,避免元件过热损坏前提下提升服务器的节能空间,通过奖励值给予代理人评估动作。

 

  1. 服务器暂态环境模拟

ALL_news_blogs_24A22_TB6wJDe4RT

(圖 1 实际伺服器配置)

图1显示了市面上的一种服务器配置,表明服务器的配置复杂且空间有限。因此,本研究简化了服务器的热传模型。首先假设服务器是单一入口出口通道,且没有外部流场造成的额外压差。在这个条件下,风扇静压等于通道总压降,并忽略了强制对流的发展流影响因素。此外,散热器的冷却行为仅依靠其入口正面面积范围流入的空气进行冷却,忽略了周围旁通道的冷却效应。最后,假设流入的空气在通过散热器的过程中不会外泄至周围的旁通道。

除了上述假设之外,还对服务器内部的热源分布规律进行了简化。假设服务器内的热源模块按照流动方向分为不同列,每列串联形成上下游,下游入口会继承上游的出口流体性质;同列之间散热器并排形成多个并联的通道关系。通过上述的散热器分布假设,将服务器内的空间切割成多个假想的通道,在单一流道内只能存在一个散热器,且散热器无法完全占据流道截面,以形成旁通现象的几何配置。在忽略流道边侧轮廓的差异下,此几何模型可近似为Jonsson[2]的研究模型,因此以其压降与纽森数经验式来描述散热器性能。

 

■初步结果

目前已完成初步的统御控制模型。在本研究中,模型适用于1U服务器环境配置参数范围如下表所示,后续进行模拟的服务器环境参数及配置示意图如图表所示,各编号区块为一个热源模块,其中包含热源及散热器。图2则显示了模拟所采用的风扇性能。

伺服器的環境參數及配置

風扇性能圖

 

针对传统开关控制方法和演算法控制结果进行比较,从图 2 和图 3 的模拟结果可以观察到以下情况:虽然这两种方法都能有效地控制温度,但传统控制方法的能耗为演算法控制的109%。演算法控制能够将最大热源温度控制在其上限附近,并利用最大有效热传温差进行散热,尽可能减少使用风扇来散热。由此可见,藉由演算法进行控制,能够有效地提高节能效果。

 

演算法全區風扇控制

虽然透过演算法的控制已能有效提升节能效果,但对于节能的成效还有更进步的空间,因此在延续前一次的架构,改变风扇的控制方法来比较温度的控制和节能的效果。图 4为每次只改变一个风扇去进行控制结果,在一开始较无法能马上回馈给温度,但在后期对温度的控制来说是较稳定,动盪幅度较平稳;图 5则为将风扇分为数个区域,而每一个区域里有数个风扇,每次改变的风扇以区为单位,对于温度的控制来说是较为即时,但同时因为一次改变较多的风扇,对整体流量的影响也会增加,温度产生较剧烈的震盪,其节能的效果则是相对较差的结果。

演算法單曲風扇控制

■结论

藉由大数据的资料库去进行模型训练,有效帮助我们减少设计伺服器配置的时间成本,且也能够根据不同的工作状态去给予较合适的动作,降低伺服器在散热上的能耗。而从目前的研究结果显示,透过演算法能够帮助我们控制热源的温度,避免过热现象的发生,且能以最大有效温差去进行散热,再搭配风扇去进一步的散热,减少风扇的能耗使用率,提升整体系统的节能空间;后续将持续进行智能控制的优化,并扩充至机柜与机房的应用。

 

 

■参考文献

[1] 2020, "How Much Energy Do Data Centers Really Use?," Energy Innovation: Policy and Technology LLC. https://energyinnovation.org/2020/03/17/how-much-energy-do-data-centers-really-use/

[2] H. Jonsson and B. Moshfegh., 2001, "Modeling of the thermal and hydraulic performance of plate fin, strip fin, and pin fin heat sinks-influence of flow bypass," IEEE TRANSACTIONS ON COMPONENTS AND PACKAGING TECHNOLOGIES, VOL. 24, NO. 2, JUNE 2001, pp. 142-149.

 

 

 


王啟川教授
 

作者

王启川教授

学历 | 国立交通大学博士
专长 | 电子散热、云端运算能源管理、海水淡化、非传统流体机械开发与应用、冷冻空调、超临界流体系统与热交换器(软硬体)、LED散热、微通道热流设计(单、双相流体应用)

 

比较清单 0 洽詢清單 0
咨询车

您的咨询车总计 0 件产品

产品比较

您的比較總計 0 件产品

依据欧盟施行的个人资料保护法,我们致力于保护您的个人资料并提供您对个人资料的掌握。
按一下「全部接受」,代表您允许我们置放 Cookie 来提升您在本网站上的使用体验、协助我们分析网站效能和使用状况,以及让我们投放相关联的行销内容。您可以在下方管理 Cookie 设定。 按一下「确认」即代表您同意採用目前的设定。

管理Cookies

隱私權偏好設定中心

依据欧盟施行的个人资料保护法,我们致力于保护您的个人资料并提供您对个人资料的掌握。
按一下「全部接受」,代表您允许我们置放 Cookie 来提升您在本网站上的使用体验、协助我们分析网站效能和使用状况,以及让我们投放相关联的行销内容。您可以在下方管理 Cookie 设定。 按一下「确认」即代表您同意採用目前的设定。

查看隱私權政策

管理同意设置

必要的Cookie

一律启用

网站运行离不开这些 Cookie 且您不能在系统中将其关闭。通常仅根据您所做出的操作(即服务请求)来设置这些 Cookie,如设置隐私偏好、登录或填充表格。您可以将您的浏览器设置为阻止或向您提示这些 Cookie,但可能会导致某些网站功能无法工作。