Dream AI Data Center Twin

Dream AI Data Center Twin

· 244 words · 2 minutes reading time GIST Supercomputing Center SCENT HPC-AI GPU Cluster

'Dream AI Data Center Twin'은 데이터센터의 모든 물리적 자산과 실시간 운영 데이터를 가상 공간에 통합하여, 관리자가 한눈에 모든 상황을 파악하고 데이터 기반의 최적화된 의사결정을 내릴 수 있는 '지능형 관제탑'을 구축합니다.

1. 통합 자산 관리 (Unified Asset Management)

“보이지 않는 자산은 관리되지 않는다.”

NVIDIA Omniverse 플랫폼과 USD 포맷을 기반으로 데이터센터 내부의 모든 것을 디지털로 복제합니다. 40개의 서버 노드, 320개의 GPU, 200G 네트워크 스위치, 전원 분배 장치(PDU)에 이르기까지 모든 하드웨어의 물리적 위치, 사양, 연결 관계를 3D 가상 공간에서 직관적으로 확인할 수 있습니다. 이를 통해 신규 장비 도입 계획, 유지보수를 위한 물리적 위치 파악, 케이블링 관리 등의 작업을 획기적으로 간소화합니다.

2. 실시간 운영 인텔리전스 (Real-time Operational Intelligence)

“모든 GPU는 살아 숨 쉬고 있다.”

우리의 디지털 트윈은 Kubernetes 클러스터 및 모니터링 시스템과 직접 연동됩니다. 320개 GPU 각각의 사용률, 온도, 메모리 사용량, 각 노드의 전력 소모량과 네트워크 트래픽 등 방대한 운영 데이터가 가상 공간의 자산 위에 실시간으로 시각화됩니다. 관리자는 'HPC-AI 서비스 포탈'에서 실행되는 AI 연구 부하가 물리 인프라에 어떤 영향을 미치는지 한눈에 파악하고, 특정 노드의 과열이나 네트워크 병목 현상 같은 이상 징후를 즉시 감지하여 선제적으로 대응할 수 있습니다.

3. 과거 분석과 미래 예측 (Past Analysis & Future Prediction)

“과거의 데이터로 미래의 장애를 막고, 최적의 수를 찾는다.”

단순한 모니터링을 넘어, 축적된 운영 데이터를 분석하여 미래를 예측합니다. 온도, 팬 속도 등의 데이터를 기반으로 잠재적인 하드웨어 장애를 예측하거나, 전력 사용량 패턴을 분석하여 에너지 효율을 최적화하는 방안을 도출합니다. 또한, 새로운 서버 랙을 추가하거나 냉각 시스템을 변경할 경우, 그 효과를 가상 공간에서 먼저 시뮬레이션하여 데이터센터 확장 및 변경에 따르는 리스크를 최소화합니다.