[아이티비즈 박채균 기자] 화웨이가 올해 주목해야 할 10대 데이터 센터 트렌드에 대한 컨퍼런스를 개최하고 이와 관련된 백서를 발표했다.
이 자리에서 야오 콴 화웨이 데이터센터 시설 도메인 사장은 미래 데이터센터가 갖춰야 할 세 가지 특징을 신뢰성과 단순성, 지속가능성으로 정의하며, 산업 발전과 집단 지성 발휘를 위해 부품, 제품, 시스템 및 아키텍처 측면에서 드러난 기술 트렌드를 공유했다.
야오 콴 사장은 AI 파운데이션 모델의 성장에 따라 향후 5년 간 글로벌 AI 컴퓨팅 파워 부문이 80% 이상의 연평균 성장률(CAGR)을 보일 것이며, 이는 클라우드 데이터센터에서 ‘클라우드 + 지능형 컴퓨팅 데이터센터’로의 전환을 촉진할 것이라고 설명했다.
업타임 인스티튜트에 따르면 2019년부터 2022년까지 데이터센터 서비스 중단으로 인해 10만 달러 이상의 손실을 경험한 비율이 39%에서 71%로 증가하는 등 최근 데이터센터 안전 사고가 눈에 띄게 증가하고 있다. 이 같은 추세는 컴퓨팅 성능 수요가 급증함에 따라 계속해서 늘어날 것으로 전망되며, 안전성과 신뢰성은 데이터센터의 핵심 요소로서 더욱 주목받을 것으로 전망된다.
화웨이는 폭넓은 연구와 오랜 경험을 바탕으로 2024년 데이터센터 시설의 10대 트렌드를 발표하고 데이터센터의 미래에 대한 통찰력과 견해를 업계와 공유했다.
① 신뢰성 높은 제품과 전문 서비스
데이터센터는 방대한 양의 데이터를 저장하고 처리 및 전송해 다양한 업계가 안정적으로 운영될 수 있도록 지원하지만, 안전성과 신뢰성에 대한 우려도 안고 있다. 안전하고 신뢰할 수 있는 데이터센터 운영을 위해서는 제품 설계 및 제조 전반에 걸친 ‘풀-체인(full-chain) 안전성’을 구현해야 한다. 동시에 사람의 개입을 줄인 고도의 자동화를 통해 제품 생산라인의 품질을 엄격히 관리하고 제품의 신뢰성을 보장해야 한다. 제품 관련 문제 발생 시 대응 방안을 마련해 전문적인 구축 및 유지보수(O&M) 서비스로 제품 고장률을 낮추고, 사후 영향을 최소화하며, 엔드 투 엔드 보증 메커니즘을 개선하는 것도 필요하다. 이 같이 신뢰성 높은 제품과 전문 서비스를 함께 제공함으로써 더욱 안전한 데이터센터 운영을 할 수 있다.
② 분산형 냉각 아키텍처
대규모 데이터센터는 주로 중앙 집중식 냉각 아키텍처를 사용하고 있다. 예를 들어, 기존의 냉각수 시스템은 냉각기 플랜트 내 7가지 하위 시스템과 수십 개의 장치를 사용한다. 해당 장치는 독립적으로 작동할 수 없기 때문에 단일 지점에서 장애 발생 시 전체 플랜트 운영에 영향을 미치고, 대규모 사고를 초래할 수 있다. 실제로 최근 몇 년간 중앙 집중식 냉각 아키텍처에서 단일 지점 장애 사고가 계속 발생하고 있다. 반면 독립된 하위 시스템을 갖춘 분산형 냉각 구조는 특정 디바이스에서 발생한 장애가 다른 디바이스 작동에 영향을 미치지 않는 높은 유연성을 지닌다. 또한 아키텍처 설계 상 장애가 발생할 수 있는 영역이 더 작기 때문에 단일 지점에서 발생한 장애를 차단함으로써 데이터센터의 안정적인 운영을 보장한다.
③ 예측형 유지보수
데이터센터의 유지보수는 통상적으로 사고 발생 후 이뤄지며, 사고 원인 역시 사후에 드러난다. 하지만 지능형 컴퓨팅 시대가 도래함에 따라 데이터센터 장애에 대한 대응 시간이 크게 단축될 것으로 전망된다. 앞으로는 예측형 유지보수가 데이터센터 인프라의 기본 기능으로 자리잡고, 사고 전 유지보수로 대체될 것이다. AI 기술의 급속한 발전으로 인해 예측형 유지보수의 범위는 한층 확대되고, 이를 통해 커패시터(capacitor), 팬 등 취약 부품의 수명과 디바이스 열기, 냉각 시스템 누수 등을 예측해 사고를 예방할 수 있을 것으로 기대된다. 이러한 방식으로 데이터센터는 수동적인 타깃형 유지보수에서 능동적인 예측형 유지보수로 전환해 O&M 안정성을 크게 높일 수 있다.
④ 라이프사이클 네트워크 보안·보호 시스템
디지털 및 지능형 기술 발전에 따라 네트워크 공격 빈도가 높아지고, 이에 따른 네트워크 보안 위험이 기하급수적으로 증가하고 있다. 특히 무정전 전원장치(UPS)나 냉각 장비가 공격을 받으면, 데이터센터는 보안과 안정성 측면에서 두루 영향을 받게 된다. 앞으로 데이터센터 인프라의 보안은 하드웨어와 소프트웨어 측면을 모두 고려해야 한다. 그 중에서도 소프트웨어 보안은 데이터센터의 안정적인 운영을 보장하기 위해 공급 보안, 심층 방어, O&M 및 운영 보안 등 세 가지 차원의 라이프사이클 네트워크 보안·보호 시스템을 기반으로 구축돼야 한다.
⑤ 조립식 및 모듈형 솔루션
인터넷 클라우드 기업의 글로벌 서비스 발전에 따라 데이터센터 구축에 대한 수요가 증가하고 있지만, 기존 데이터센터는 느린 구축 속도와 복잡한 엔지니어링으로 수요에 턱없이 부족한 실정이다. 이에 따라 구축 기간이 짧은 고품질의 조립식 모듈형 솔루션이 최적의 선택지로 떠오를 것으로 예상된다. 제품과 유사한 엔지니어링 및 사전 조립식 설계를 통해 제품을 사전 조립하고 공장에서 더 일찍 가동할 수 있다. 이를 통해 고품질 제품의 현장 배송과 배송 기간 단축은 물론 신속한 서비스 출시에 대한 고객의 요구사항을 충족하고, 현장 공사로 인한 폐기물도 줄일 수 있다.
⑥ O&M 보안 및 효율성을 높이는 전문 관리 플랫폼
1,000개의 랙을 보유한 건물에서 10,000개의 랙을 적재한 캠퍼스까지 데이터센터의 확장에 따라 전체 O&M의 복잡성도 증가하고 있다. 대부분의 데이터센터 디바이스는 전문 인력이 필요하며, 결함 발견에 오랜 시간이 소요돼 전반적인 점검 수행에 어려움을 겪는다. 반면 전문 관리 플랫폼은 데이터센터의 O&M 효율성과 정확성을 크게 개선할 수 있다. 기존 벤더가 제공하는 전문 관리 플랫폼은 고객의 심층적인 디바이스 관리 역량 구축을 지원한다. 이를 통해 제때에 신속하게 결함 위치를 파악하고 복구해 O&M을 간소화할 수 있으며, 더욱 안전하고 안정적인 데이터센터 운영이 가능하다.
⑦ 공랭식 및 액체 냉각 방식의 융합
현재 업계는 범용 컴퓨팅에서 지능형 컴퓨팅으로 전환하는 단계에 있다. 이 과정에서 데이터센터는 두 가지 컴퓨팅 방식을 모두 지원하는 시나리오가 필요할 수 있다. 일반적으로 범용 서버를 위한 단일 랙의 전력 밀도는 공랭식 장비의 냉각 조건인 15kW를 초과하지 않는다. 반면 지능형 컴퓨팅 센터가 보유한 단일 랙의 전력 밀도는 30kW를 초과해, 열 방출을 위한 액체 냉각이 필요하다. 예측 불가능한 시나리오에서는 공랭식과 액체 냉각의 비율을 조정해 향후 서비스에 유연하게 적응하고, 고객의 ROI를 극대화할 수 있도록 두 가지 방식을 융합한 아키텍처가 부상할 것으로 기대된다.
⑧ 간접 증발식 냉각
공랭식 냉각 솔루션은 주류 애플리케이션 시나리오에서 가장 널리 사용되고 있다. 냉각원과 관련해 간접 증발식 냉각 시스템은 아키텍처와 효율성, O&M 측면에서 냉각수 시스템 대비 강점을 보유하고 있으며, 여전히 가장 비용 효율적인 냉각 솔루션이다. 간접 증발식 냉각 시스템의 분산 냉각 구조는 단일 지점에서 고장이 발생하는 것을 효과적으로 방지해 신뢰성을 높이고, 자유 냉각원의 활용을 극대화해 단 한 번의 열 교환만 필요로 한다. 날씨가 추운 지역에서는 압축기를 휴면 상태로 유지해 최적의 전력효율지수(PUE)를 달성할 수 있다. 지능형 컴퓨팅 성능 수요에 따라 간접 증발식 냉각 시스템은 아키텍처를 미래 지향적으로 설계하며, 액체 냉각 컴퓨팅 시나리오에 더욱 효과적으로 적용할 수 있다.
⑨ 시스템 엔지니어링 최적화
탄소 중립은 전 세계적인 합의이자 사명이다. 기존의 데이터센터는 UPS, 에어컨 등 장비 효율성 개선에 초점을 두고 있으나 물리적 한계로 인해 어려움을 겪고 있다. 또한 사소한 개선사항에 투자되는 시간과 비용도 컴퓨팅 파워 시대의 요구를 충족하기엔 역부족이다. 따라서 데이터센터의 PUE 감소를 위해서는 효율적인 부품에서 시스템 엔지니어링 최적화로 초점을 전환해야 한다. 시스템 엔지니어링 관점에서 해당 문제를 고민하고, 현실과 부품 기술 수준을 균형 있게 고려해 최적의 솔루션을 도출해야 할 것이다. 가령, UPS 이중변환모드를 S-ECO 모드로 전환하고 데이터센터 PUE를 PFPUE(페타플롭스 PUE, petaflops PUE)로 변경해, 엔드 투 엔드 방식으로 데이터 센터의 에너지 효율을 최적화하는 것을 들 수 있다.
⑩ AI 최적화
에너지 절약 성능 개선을 필요로 하는 데이터센터는 여전히 많으며, 중국의 국가 통합 빅데이터 센터보다 훨씬 높은 PUE를 가진 데이터센터도 존재한다. 이러한 데이터센터는 에너지 절약 요구 사항을 충족하기 위해 신속한 현대화를 기다리고 있다. 기존의 에너지 절약 정비는 회선과 서비스를 중단해야 하므로 서비스 중단을 초래할 수 있고, 수동 최적화는 높은 난이도와 낮은 효과 및 낮은 빈도로 낮은 만족도를 보인다. 반면 AI 에너지 효율 최적화 솔루션은 사전 설정된 AI 알고리즘과 빅데이터 모델을 통해 기존 데이터센터의 에너지 효율을 최적화한다. 또한 AI 최적화는 관련 인력의 전문 지식에 의존하지 않기 때문에 빠른 최적화와 뛰어난 효과를 특징으로 하며, 기존 냉방에서 지능형 냉방으로의 전환을 용이하게 돕는다.