[아이티비즈 박채균 기자] 엔비디아(CEO 젠슨 황)는 아마존웹서비스(AWS)의 새로운 EC2 P4d 인스턴스에 엔비디아 A100 텐서코어(Tensor Core) GPU가 탑재된다고 3일 밝혔다.
AWS의 첫 GPU 인스턴스는 엔비디아 M2050과 함께 10년전에 출시됐다. 당시는 인공지능(AI)과 딥 러닝이 부상하기 전으로, 쿠다 기반 애플리케이션은 주로 과학 시뮬레이션을 가속화하는데 초점이 맞춰졌다. 이후 AWS는 K80, K520, M60, V100 및 T4를 포함하는 안정적인 클라우드 GPU 인스턴스를 추가했다.
새로운 P4d 인스턴스는 머신러닝 훈련 및 고성능컴퓨팅(HPC) 애플리케이션을 위해 AWS의 최고 성능과 비용 효율성을 제공하는 GPU 기반 플랫폼을 지원한다. 이는 기본 FP32 정밀도 대비 각각 FP16에서 최대 3배, T432에서 머신러닝 모델 훈련 시간을 최대 6배 단축한다. 또한 P4d 인스턴스는 탁월한 추론 성능을 제공한다. 지난달 MLPerf 추론 벤치마크에서 엔비디아 A100 GPU는 CPU 대비 최대 237배 빠른 성능을 보였다.
각각의 P4d 인스턴스는 8개의 엔비디아 A100 GPU로 구동되며, AWS 울트라클러스터즈를 통해 고객은 AWS EFA를 사용하여 한번에 4,000개 이상의 GPU에 대한 확장 가능한 온디맨드 액세스를 얻을 수 있다. 또한, P4d는 400Gbps 네트워킹을 제공하고, NV링크, NV스위치, NCCL, GPUDirect RDMA 등의 엔비디아 기술을 통해 딥 러닝 훈련 워크로드를 더욱 가속화한다