인텔, 개방형 HPC·AI 포트폴리오 공개

새로운 과학 대규모 언어 모델 이니셔티브 발표

[아이티비즈 김문구 기자] 인텔은 국제 슈퍼컴퓨팅 컨퍼런스(ISC)에서 향상된 고성능컴퓨팅(HPC) 및 인공지능(AI) 워크로드 성능은 물론 원API(oneAPI) 프로그래밍 모델로 통일된 미래 HPC 및 AI 제품 포트폴리오, 그리고 과학과 사회를 위한 생성형AI 모델 개발에 오로라 슈퍼컴퓨터를 활용하기 위한 국제적인 협력을 발표했다.

제프 맥베이 인텔 슈퍼컴퓨팅 그룹 총괄 및 부사장은 “인텔은 고객 및 최종 사용자가 획기적인 발견을 더욱 빨리 할 수 있도록 HPC 및 AI 커뮤니티에 다양한 제품과 서비스를 제공하기 위해 최선을 다하고 있다”며 “인텔 제온 CPU 맥스 시리즈, 인텔 데이터센터 GPU 맥스 시리즈, 4세대 인텔 제온 스케일러블 프로세서 및 하바나 가우디2를 아우르는 인텔의 제품 포트폴리오는 다양한 워크로드에서 경쟁사 제품 대비 뛰어난 성능을 발휘하며, 에너지 및 총소유비용(TCO) 이점을 제공하고, 모든 사람들이 AI를 사용할 수 있도록 지원하며, 더 넓은 선택지와 개방성, 유연성을 제공한다”고 말했다.

이번 멕베이 부사장은 특별 발표를 통해 인텔이 모든 하드웨어에 걸쳐 보유하고 있는 경쟁력과 강력한 모멘텀을 강조했다:

ISV인 앤시스에 따르면, AI 가속 HPC 애플리케이션에서 GPU 맥스 시리즈가 H100 제품 대비 50% 빠른 속도를 기록하는 등2, 인텔 데이터센터 GPU 맥스 시리즈는 다양한 워크로드에서 엔비디아 H100 PCIe 제품 대비 30% 향상된 성능을 제공한다고 밝혔다.

고대역폭 메모리를 탑재한 유일한 x86 프로세서인 제온 맥스 시리즈 CPU는 HPCG(High Performance Conjugate Gradients) 벤치마크에서 AMD 제노아 프로세서 대비 더 적은 전력으로 65% 향상된 성능을 제공한다. 높은 메모리 대역폭은 HPC 고객이 가장 원하는 기능 중 하나다.

HPC에서 가장 널리 사용되는 4세대 인텔 제온 스케일러블 프로세서는 AMD 밀란(AMD Milan) 제품 대비 평균 50% 빠른 속도를 제공하며, 에너지 기업 BP의 최신 4세대 제온 HPC 클러스터는 전 세대 프로세서 대비 8배 높은 성능 및 향상된 에너지 효율성을 제공한다.

가우디2(Gaudi2) 딥 러닝 가속기는 딥 러닝 학습 및 추론에서 엔비디아 A100 대비 최대 2.4배 빠른 성능을 제공한다.

역동적이고 새롭게 부상하는 HPC 및 AI 워크로드를 위해서 전체적인 하드웨어 및 소프트웨어 포트폴리오가 필요하다. 맥베이 부사장은 HPC 커뮤니티에 다양한 선택지와 솔루션을 제공해 AI의 대중화를 지원하는 인텔 데이터센터 오퍼링에 대해 소개했다.

맥베이 부사장은 높은 메모리 대역폭 요구를 충족하기 위한 차세대 CPU를 공개했다. 인텔은 그래나이트 래피즈를 위한 신규 유형 DIMM인 멀티플렉서 결합 랭크(MCR) 개발을 위해 생태계를 주도했다. MCR은 DDR5 기준 초당 8,800메가전송 속도와 2소켓 시스템에서 초당 1.5테라바이트(TB/s) 이상의 메모리 대역폭 용량을 기록했다. 이러한 메모리 대역폭 향상으로 빠르게 증가하는 최신 CPU 코어 수를 충족하고 효율성과 유연성을 제공할 수 있다.

인텔의 차세대 맥스 시리즈 GPU(팔콘 쇼어)는 고객이 빠르게 변화하는 미래의 새로운 워크로드를 위해 시스템 수준의 CPU와 외장 GPU를 유연하게 조합할 수 있도록 지원할 예정이다.

아르곤 국립연구소는 인텔 및 HPE와 협력해 과학 연구 공동체를 위한 일련의 생성형AI 모델 제작 계획을 공개했다.

릭 스티븐스 아르곤 국립연구소 부연구소장은 “본 프로젝트는 오로라 슈퍼컴퓨터의 잠재력을 최대한 활용, 美 에너지부 연구소 및 기타 연구소와 협력해 다운스트림 과학에 사용할 수 있는 리소스를 생산하는 것을 목표로 한다”고 말했다.

과학용 생성형 AI 모델은 일반 문서, 코드, 과학 문서를 비롯해, 생물학, 화학, 재료 과학, 물리학, 의학 및 기타 출처의 구조화된 과학 데이터를 학습한다.

1조 개에 달하는 매개변수가 포함된 결과 모델은 분자 및 물질 설계부터 수백만 개 출처에 걸친 지식을 학습하는 등 다양한 과학적 응용 분야에 사용되어 시스템 생물학, 고분자 화학 및 에너지 재료, 기후 과학, 우주론 등 다양한 분야에서 새롭고 흥미로운 실험을 제안할 예정이다. 더불어, 본 모델은 암 및 기타 질병과 관련된 생물학적 과정을 더욱 빨리 규명하도록 지원하며, 약물 설계를 위한 목표 제시에도 사용될 것이다.

아르곤 국립연구소는 인텔, HPE, 美 에너지부 연구소, 미국 및 해외 대학교, 비영리 단체, 이화학연구소(RIKEN) 등 국제 파트너와 함께 프로젝트 발전을 위한 글로벌 협력을 주도하고 있다.

전세계적으로 전체 개발자의 약 90%가 인텔에서 개발 또는 최적화한 소프트웨어의 혜택을 받거나 사용하고 있다. 원API 프로그래밍 모델이 2020년에 공개된 이후, 개발자들은 여러 하드웨어 공급업체의 다양한 CPU, GPU, FPGA 및 AI 실리콘에서 원API를 시연하여 단일 공급업체 가속 프로그래밍 모델의 문제를 해결하고 있다. 최신 인텔 원API 툴은 OpenMP GPU 오프로드를 통해 HPC 애플리케이션의 속도를 향상시키고, OpenMP 및 포트란에 대한 지원을 확장하며, 텐서플로우 및 파이토치 등 최적화된 프레임워크와 AI 툴을 통해 AI 및 딥러닝을 가속화하여 성능을 대폭 향상시킬 수 있게 한다.

원API는 원API의 SYCL을 구현, 코드플레이에서 개발한 엔비디아 및 AMD 프로세서용 원API 플러그인 및 CUDA 코드를 SYCL 및 C++로 자동으로 이관하는 인텔 DPC++ 호환 도구를 통해 다중 아키텍처 프로그래밍을 개발자들에게 더욱 쉬운 환경을 조성한다. 이러한 작업에서 코드의 90-95%가 자동으로 이관된다. SYCL 코드는 엔비디아 및 AMD 기반 시스템 언어에서 실행되는 동일한 코드와 비슷한 성능을 보인다. 데이터에 따르면 맥스 시리즈 GPU에서 실행되는 DPEcho 천체 물리학 애플리케이션의 SYCL 코드는 엔비디아 H100에서 실행되는 동일한 CUDA 코드보다 48% 더 뛰어난 성능을 발휘한다.

더불어, 생태계 내에서 SYCL 도입이 확산되고 있다. 아토스의 사업부서인 에비덴은 자사 성능 프로그래밍 센터 오브 엑셀런스(CEPP)를 기반으로 하는 HPC/AI 코드 현대화 서비스인 CEPP one+를 인텔과 함께 발표했다. CEPP one+는 공개 표준을 통해 하드웨어 선택의 자유를 제공하는 동시에 커뮤니티가 이기종 컴퓨팅 환경에 대비할 수 있도록 SYCL 및 OpenMP 채택에 중점을 둘 것이다.

김문구 기자 다른기사 보기