수년간의 이야기는데이터 센터에너지 소비는 예측 가능한 호를 따랐습니다. 확실히 디지털화가 성장하고 있었지만 더 나은 서버, 가상화 및 클라우드 통합으로 인한 효율성 향상으로 인해 총 전력 사용량은 놀라울 정도로 일정하게 유지되었습니다. 전 세계 데이터 센터 전력 수요는 지난 10년 동안 전체 전력 소비량의 약 1%(연간 약 200테라와트시)를 맴돌았습니다.
그 시대는 끝나고 있습니다.
생성적 AI, 암호화폐 마이닝, 엣지 컴퓨팅, 연결된 장치의 기하급수적인 성장이 융합되면서 기존의 효율성 곡선이 깨졌습니다. 업계 추정에 따르면 데이터 센터 전력 수요는 2000년대 초 이후 볼 수 없었던 연간 비율로 증가하고 있습니다. 아일랜드, 북부 버지니아, 싱가포르 등 일부 지역에서는 데이터 센터가 이미 전체 전력 소비량의 15~25%를 차지하고 있어 규제 당국은 신규 건설에 대한 유예를 강요하고 있습니다.
이러한 배경에서 냉각 아키텍처, 배전 토폴로지, 랙 밀도 계획 등 한때 기술적인 세부 사항처럼 보였던 인프라 선택이 이사회에서 결정되었습니다. 에너지 비용은 더 이상 항목이 아닙니다. 성장을 제약하는 요소입니다.
전력 사용 효율(PUE)은 거의 20년 동안 데이터 센터 업계의 표준 효율성 지표였습니다. 이는 총 시설 전력을 IT 장비 전력으로 나눈 간단한 비율입니다.
PUE가 2.0이라는 것은 서버와 스토리지에 전력을 공급하는 모든 와트에 대해 냉각, 조명, 전력 변환 손실 및 기타 오버헤드에 또 다른 와트가 사용된다는 의미입니다. PUE가 1.2라는 것은 오버헤드가 IT 와트당 0.2와트만 소비한다는 것을 의미합니다.
업계에서는 PUE를 기반으로 한 계층을 광범위하게 수용했습니다.
| 수준 | PUE | DCiE | 의미 |
|---|---|---|---|
| 백금 | <1.25 | >0.80 | 세계적 수준의 효율성에는 일반적으로 외기 냉각 또는 액체 냉각이 필요합니다. |
| 금 | 1.25 – 1.43 | 0.70 – 0.80 | 매우 효율적이며 온화한 기후에서 현대적인 디자인으로 달성 가능 |
| 은 | 1.43 – 1.67 | 0.60 – 0.70 | 오래된 시설이나 따뜻한 기후에 적합 |
| 청동 | 1.67 – 2.00 | 0.50 – 0.60 | 대규모 개조가 없는 레거시 데이터 센터의 경우 일반적 |
| 공정한 | 2.00 – 2.50 | 0.40 – 0.50 | 효율성이 낮고 운영 비용이 높음 |
| 가난한 | >2.50 | <0.40 | 심각한 비효율성, 즉각적인 주의가 필요할 수 있음 |
문제는 많은 조직이 실제로 PUE를 모른다는 것입니다. 그들은 추정합니다. 그들은 추측합니다. 또는 주 유틸리티 계량기에서만 측정하고 나머지는 가정합니다.
2023년 업계 조사에 따르면 데이터 센터 운영자의 거의 40%가 랙 수준에서 PUE를 측정한 적이 없는 것으로 나타났습니다. 그렇게 한 이들 중 보고된 PUE와 실제 PUE 사이의 차이는 평균 0.3포인트였습니다. 이는 아무도 눈치채지 못한 채 시설을 골드에서 실버로 옮기기에 충분했습니다.
PUE가 왜 그렇게 광범위하게 변하는지 이해하는 것은 전력이 데이터 센터에서 나가는 곳을 살펴보는 것부터 시작됩니다.
PUE가 약 1.8인 일반적인 공냉식 시설에서 고장은 대략 다음과 같습니다.
냉방부하가 가장 큰 변수이다. 무료 냉각을 위해 외부 공기를 사용하는 온화한 기후의 시설에서는 비IT 전력의 15%만 냉각에 소비할 수 있습니다. 열대 기후에서 연중 기계적 냉각 기능을 갖춘 동일한 시설은 40%를 소비할 수 있습니다.
이것이 바로 코로케이션 제공업체가 시설 수준에서 PUE를 광고하지만 고객 측정기에서 PUE를 제공하는 이유입니다. 숫자와 의미가 다릅니다. 고객은 모든 비용을 지불합니다.
기존의 데이터 센터 관리는 상대적으로 정적인 환경을 가정했습니다. 랙은 몇 달 또는 몇 년에 걸쳐 채워졌습니다. 냉각은 천천히 조절할 수 있습니다. 전력 분배는 첫날부터 너무 컸습니다.
클라우드 시대는 가정을 변화시켰습니다. 이제 랙이 며칠을 채웁니다. 워크로드는 서버 간에 자동으로 이동됩니다. 고밀도 AI 클러스터는 인접한 범용 컴퓨팅 랙보다 3배 더 많은 전력을 소비할 수 있습니다.
이러한 변화로 인해 인프라 관리에 대한 재고가 필요해졌습니다. 세 가지 트렌드가 눈에 띕니다.
첫째, 밀도가 고르지 않게 상승하고 있습니다.10년 전의 표준 서버 랙은 5~8kW를 소비했습니다. 오늘날 범용 랙은 10~15kW를 소비합니다. 고성능 컴퓨팅 및 AI 교육 랙은 일반적으로 랙당 30kW를 초과합니다. 일부는 50kW를 초과합니다.
이로 인해 공기 냉각이 해결하기 힘든 열 관리 문제가 발생합니다. 랙당 20kW의 공기 냉각은 적절한 밀폐를 통해 효과적으로 유지됩니다. 30kW에서는 한계가 됩니다. 40kW 이상에서는 액체 냉각이 선택 사항에서 필수 사항으로 이동합니다.
둘째, 용량 계획이 예측 가능해졌습니다.필요한 것보다 더 많은 용량을 구입하고 유휴 상태로 두는 기존 방법은 더 이상 대규모로 작동하지 않습니다. 유휴 용량에는 자본 비용과 지속적인 유지 관리 비용이 모두 포함됩니다.
최신 인프라 관리 시스템은 기록 데이터와 워크로드 예측을 사용하여 전력, 냉각 또는 랙 공간이 고갈되는 시기를 예측합니다. 최고의 시스템은 제약이 심각해지기 며칠 또는 몇 주 전에 기존 용량을 재구성할지 아니면 새 하드웨어를 주문할지를 권장할 수 있습니다.
셋째, 가시성 요구 사항은 전팬딩.기존 데이터 센터는 PDU 수준에서 전력을 추적할 수 있습니다. 현대 시설에는 랙 수준, 때로는 서버 수준, 점점 더 워크로드 수준에서 가시성이 필요합니다. 이를 통해 어떤 가상 머신이나 컨테이너 드라이브가 어떤 전력을 소비하는지 파악해야 합니다.
데이터 센터 인프라관리(DCIM) 소프트웨어는 10년 넘게 존재했지만 채택률은 여전히 고르지 않습니다. 전체 DCIM 시스템을 구축한 기업 데이터 센터는 절반 미만입니다. 많은 사람들이 그 기능의 일부만 사용했습니다.
적절하게 구현된 DCIM 시스템은 다음 네 가지 작업을 수행합니다.
자산 관리.모든 서버, 스위치, PDU 및 냉각 장치는 구성 관리 데이터베이스(CMDB)에서 추적됩니다. 위치, 정격 전력, 네트워크 연결, 유지 관리 기록 등 모든 것이 가능합니다. 이는 기본적으로 들리지만 많은 조직에서는 여전히 몇 달 간의 업데이트 간격으로 스프레드시트에서 자산을 추적합니다.
실시간 모니터링.PDU 또는 랙 수준의 전력 소모, 공급 및 반환 지점의 온도 및 습도, 냉각 시스템 상태, UPS 배터리 상태. 매개변수가 설정값에서 벗어날 때 경보가 발생합니다. 목표는 다운타임이 발생하기 전에 문제를 감지하는 것입니다.
용량 계획.시스템은 사용 가능한 전력 및 냉각 용량, 사용 중인 용량, 향후 배포를 위해 예약된 용량을 알고 있습니다. 새로운 고밀도 랙을 추가하거나 이전 서버 세트를 폐기할 때의 영향을 모델링할 수 있습니다.
심상.데이터 센터의 디지털 트윈(랙별, 타일별)은 현재 상태를 보여주고 운영자가 변경 사항을 시뮬레이션할 수 있도록 해줍니다. 3행, 4열에 10kW의 부하를 추가하면 냉각 용량을 초과합니까? 누군가 장비를 이동하기 전에 시스템이 응답합니다.
데이터 센터의 에너지 소비를 줄이는 것은 신비한 일이 아닙니다. 방법은 잘 이해됩니다. 문제는 구현 규율입니다.
공급 공기 온도를 높입니다.대부분의 데이터 센터는 냉각 장치 반환 시 섭씨 18~20도의 저온 상태로 작동합니다. 이는 운영자가 항상 그렇게 해왔기 때문입니다. ASHRAE 지침에서는 이제 24~27도를 권장합니다. 온도가 올라갈 때마다 냉각 에너지는 약 4% 감소합니다. 20도 대신 26도에서 작동하면 냉각 전력이 20~25% 절약됩니다.
뜨거운 공기와 차가운 공기의 혼합을 제거합니다.열기 통로 차폐, 냉기 통로 차폐 또는 수직 배기 덕트는 냉각 공기가 랙 전면을 통해 짧은 순환을 거치는 대신 필요한 곳으로 이동하도록 강제합니다. 차폐만으로도 일반적으로 냉각 에너지가 15~25% 감소합니다.
가변 속도 드라이브를 사용하십시오.일정한 속도의 팬과 펌프는 부분 부하 시 에너지를 낭비합니다. 가변 속도 드라이브는 공기 흐름과 물 흐름을 실제 수요에 맞춰 조정합니다. 개조 투자 회수 기간은 일반적으로 1~3년입니다.
UPS 작동을 최적화하십시오.대부분의 UPS 시스템은 지속적으로 이중 변환 모드로 실행됩니다. 즉, 유틸리티 전원이 깨끗할 때에도 AC를 DC로 변환하고 다시 AC로 변환합니다. 최신 UPS 시스템은 전력 품질이 허용되면 에코 모드로 전환하여 94~96% 대신 99% 효율성을 달성할 수 있습니다. 단점은 유틸리티 전원이 고장날 경우 배터리로의 전환 시간이 짧다는 것입니다. 이러한 전송용으로 설계된 전원 공급 장치가 있는 IT 부하의 경우 위험은 최소화됩니다.
더 높은 전압 분배를 채택하십시오.208V 대신 415V로 전력을 분배하면 분배 손실이 약 25% 감소합니다. 이를 위해서는 호환 가능한 PDU와 서버 전원 공급 장치가 필요하지만 많은 최신 장치가 이를 지원합니다.
상유 CPSY 회사데이터 센터 인프라에 중점을 두고 있는 하이테크 기업인 은 모듈형 데이터 센터 솔루션의 PUE가 1.3이라고 보고했습니다. 이로 인해 회사는 골드 등급으로 전환되어 플래티넘 등급으로 전환됩니다.
기존 설계에 비해 25%의 에너지 절감 효과는 여러 요인에서 비롯됩니다. 시스템 수준에서 97.4% 효율성을 갖춘 모듈형 UPS 시스템은 그렇지 않은 경우 15~20%에 달하는 배전 손실을 줄입니다. 가변 속도 압축기와 EC 팬을 갖춘 정밀 에어컨은 고정된 용량으로 작동하는 대신 실제 열 부하에 맞게 냉각 출력을 조정합니다. 그리고 물리적 레이아웃(열기 통로 차폐, 최적의 랙 간격, 적절한 크기의 천공 타일이 있는 이중 바닥)은 효율적인 여러 시설을 저해하는 공기 흐름 관리 문제를 해결합니다.
회사의 인증 포트폴리오에는 ISO 9001(품질 관리) 및 ISO 27001(정보 보안 관리)이 포함됩니다. 고객 배포에는 Huawei, ZTE 및 Inspur와의 파트너십이 포함되며 미국, 영국, 독일, 프랑스 및 호주에 수출 설치가 포함됩니다.
수년 동안 액체 냉각은 슈퍼컴퓨팅 센터의 틈새 기술이었습니다. 그것은 빠르게 변화하고 있습니다.
NVIDIA H100 또는 곧 출시될 B200 GPU를 사용하는 AI 훈련 클러스터는 순수 공냉식 구성에서 랙당 30~50kW를 생성합니다. 이러한 밀도에서 공기 냉각에는 시끄러운 팬, 깊은 랙, 여전히 미미한 열 제어 등 높은 공기 흐름이 필요합니다.
칩에 직접 액체 냉각을 적용하면 소스에서 발생하는 열의 60~80%가 제거됩니다. 칩이 더 시원하게 작동합니다. 팬이 느리게 작동합니다. 실내 에어컨은 전원 공급 장치, 메모리 및 기타 구성 요소에서 남은 열만 처리합니다.
효율성 향상이 상당합니다. 칩에 직접 냉각하는 시설에서는 PUE 값이 1.1~1.2라고 보고됩니다. 그 대신 더 높은 자본 비용, 더 복잡한 누출 관리, 시설 등급 수처리의 필요성 등이 있습니다.
전체 서버를 유전체 유체에 담그는 완전 침수 냉각은 PUE를 1.1 미만으로 낮추지만 여전히 특수성을 유지합니다. 대부분의 상용 데이터 센터는 먼저 칩 직접 냉각을 채택하고 나중에 특정 고밀도 구역에 침수 방식을 채택합니다.
SHANGYU 데이터 센터 플랫폼에는 공랭식 및 액체 냉각 아키텍처에 대한 조항이 포함되어 있어 향후 고밀도 배포에는 시설 설계에 관계없이 유체 기반 열 관리가 필요하다는 점을 인식하고 있습니다.
대부분의 데이터 센터 운영 팀은 여전히 사후 대응적으로 일하고 있습니다. 알람이 울립니다. 누군가 조사합니다. 수정 사항이 적용되었습니다. 주기가 반복됩니다.
예측 관리로 전환하려면 많은 조직에 부족한 세 가지 기능이 필요합니다.
완전한 구성 데이터.모든 서버, 모든 스위치, 모든 PDU, 모든 냉각 장치 등 데이터 센터에 무엇이 있는지 아는 것이 기초입니다. 정확한 CMDB 데이터가 없으면 용량 계획은 추측에 불과합니다.
세분화된 원격 측정.랙 수준 전력 측정은 최소 수준입니다. 서버당 전력 측정이 더 좋습니다. 워크로드 수준의 전력 귀속은 가장 좋지만 달성하기가 가장 어렵습니다.
신호와 잡음을 구별하는 분석입니다.한 랙의 온도 스파이크는 팬 고장을 의미할 수 있습니다. 데이터 센터 절반의 온도가 급상승하면 냉각기 고장을 의미할 수 있습니다. 시스템은 이에 따라 대응을 차별화하고 권장해야 합니다.
SHANGYU의 DCIM 플랫폼은 SNMP 및 Modbus 장치 지원, 웹 기반 및 Windows 애플리케이션 인터페이스, 이벤트 트리거 이미징을 위한 네트워크 카메라와의 통합을 제공합니다. 명시된 목표는 간단합니다. 비용이 많이 드는 가동 중지 시간을 줄이고, 완전한 환경 제어를 통해 일일 운영 비용을 절감하고, 관리 가시성과 추적성을 향상시키는 것입니다.
데이터 센터 에너지 소비는 전 세계 전력 수요의 약 1%를 차지합니다. 그 숫자는 맥락에 맞추기 전까지는 작게 들립니다. 이는 영국 전체 전력 소비량과 거의 맞먹는다.
무엇보다 성장 속도가 빨라지고 있다. 업계 예측에 따르면 AI, 클라우드 채택 및 연결된 장치의 지속적인 확장으로 인해 2030년까지 데이터 센터 전력 수요가 매년 10~15% 증가할 것으로 예상됩니다. 이 속도라면 데이터 센터는 2010년 말까지 전 세계 전력의 3~4%를 소비하게 될 것입니다.
지난 10년 동안 전력 소비를 일정하게 유지한 효율성 향상은 서버 가상화(물리적 서버 수 감소), 향상된 드라이브 효율성(회전식 디스크에서 SSD로 이동), 광범위한 무료 냉각 배치(기계적 냉각 대신 외부 공기 사용)에서 비롯되었습니다. 낮게 매달린 과일은 대부분 따졌습니다.
효율성의 차세대 물결은 액체 냉각, 고전압 분배, AI에 최적화된 냉각 제어, 그리고 아마도 가장 중요한 인프라 용량과 실제 IT 부하 간의 더 나은 조정에서 나올 것입니다. 마지막 부분에는 DCIM 시스템이 제공하지만 완전히 사용하는 시설은 거의 없는 일종의 실시간 가시성과 예측 분석이 필요합니다.
사양서에 있는 숫자가 아닌 실제 PUE를 알고 계십니까?UPS 출력과 IT 장비 입력에서 측정해 본 적이 없다면 알 수 없습니다. 차이점은 실제 간접비입니다.
냉각 시스템이 서로 싸우고 있습니까?많은 데이터 센터에서 CRAC 장치는 온도 및 습도 대역이 겹치도록 설정됩니다. 한 장치는 제습하고 다른 장치는 가습합니다. 하나는 냉각되고 다른 하나는 재가열됩니다. 이것은 드문 일이 아닙니다. 또한 효율적이지 않습니다.
서버의 유휴 전력 소모량은 얼마입니까?업계 데이터에 따르면 일반적인 기업 서버는 아무 작업도 하지 않을 때 최대 전력의 30~40%를 소모합니다. 사용하지 않는 서버를 종료하거나 절전 모드로 전환하는 것은 ROI가 가장 높은 효율성 측정 방법입니다. 가장 간과되는 부분이기도 합니다.
장비 사양을 위반하지 않고 공급 공기 온도를 2도 높일 수 있습니까?아마도 그렇습니다. 대부분의 장비는 흡기 온도 25~27도 등급입니다. 대부분의 데이터 센터는 20~22도에서 작동합니다. 6도 차이는 수년간의 불필요한 냉각 에너지를 나타냅니다.
UPS 효율성을 마지막으로 검증한 때는 언제입니까?명판 효율은 완벽한 역률을 갖춘 최대 부하에서 측정됩니다. 실제 역률이 있는 부분 부하에서의 실제 효율은 5~10포인트 낮을 수 있습니다.