Amazon EC2 P4 인스턴스

클라우드의 기계 학습 훈련 및 HPC 애플리케이션을 위한 고성능

Amazon EC2 P4 인스턴스를 사용해야 하는 이유

Amazon Elastic Compute Cloud(Amazon EC2) P4d 인스턴스는 클라우드에서 기계 학습(ML) 훈련 및 고성능 컴퓨팅(HPC) 애플리케이션을 위한 고성능을 제공합니다. P4d 인스턴스는 NVIDIA A100 Tensor Core GPU로 구동되며, 업계 최고 수준의 높은 처리량과 짧은 지연 시간의 네트워킹을 제공합니다. 이 인스턴스는 400Gbps 인스턴스 네트워킹을 지원합니다. P4d 인스턴스를 사용하면 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 예를 들어 딥 러닝 모델의 경우 이전 세대인 P3 및 P3dn 인스턴스에 비해 평균 성능이 2.5배 개선됩니다.

P4d 인스턴스는 클라우드의 고성능 컴퓨팅, 네트워킹 및 스토리지 성능으로 구성되는 Amazon EC2 UltraCluster라는 하이퍼스케일 클러스터에 배포됩니다. 각 EC2 UltraCluster는 전 세계에서 가장 강력한 슈퍼컴퓨터 중 하나이며 가장 복잡한 다중 노드 기계 학습 훈련 및 분산 HPC 워크로드를 실행하는 데 도움이 됩니다. EC2 UltraCluster에서는 기계 학습 또는 HPC 프로젝트 요구 사항에 따라 수천 개의 NVIDIA A100 GPU를 시작으로 손쉽게 확장할 수 있습니다.

연구원, 데이터 사이언티스트 및 개발자는 자연어 처리, 객체 탐지 및 분류와 추천 엔진 등의 사용 사례를 위한 기계 학습 모델 훈련에 P4d 인스턴스를 사용할 수 있습니다. 또한 신약 개발, 내진 해석 및 금융 모델링과 같은 HPC 애플리케이션을 실행할 수도 있습니다. 온프레미스 시스템과 달리 거의 무제한의 컴퓨팅 및 스토리지 용량에 액세스하고, 비즈니스 요구 사항에 따라 인프라 크기를 조정하며, 다중 노드 기계 학습 훈련 작업 또는 강결합 분산 HPC 애플리케이션을 설정 또는 유지 관리 비용을 들이지 않고 몇 분 안에 시작할 수 있습니다.

새로운 Amazon EC2 P4d 인스턴스 발표

이점

기계 학습 훈련 시간을 며칠에서 몇 분으로 단축

각 P4d 인스턴스는 최신 세대의 NVIDIA A100 Tensor Core GPU를 통해 이전 세대인 P3 인스턴스보다 평균 2.5배 향상된 DL 성능을 제공합니다. P4d 인스턴스의 EC2 UltraCluster는 모든 개발자, 데이터 사이언티스트 및 연구원이 선결제 비용 또는 장기 약정 없이 슈퍼컴퓨팅급 성능에 액세스하여 가장 복잡한 기계 학습 및 HPC 워크로드를 실행하는 데 도움이 됩니다. P4d 인스턴스는 훈련 시간을 단축하여 생산성을 극대화합니다. 개발자는 비즈니스 애플리케이션에 기계 학습 인텔리전스를 구축하는 핵심 미션에 집중할 수 있습니다.

가장 복잡한 다중 노드 ML 훈련을 높은 효율성으로 실행

P4d 인스턴스의 EC2 UltraCluster를 사용하면 수천 개의 GPU 규모로 수월하게 확장할 수 있습니다. 400Gbps의 인스턴스 네트워킹, Elastic Fabric Adapter(EFA) 및 GPUDirect RDMA 기술에 대한 지원을 통해 높은 처리량과 짧은 지연 시간의 네트워킹을 제공하므로 스케일아웃/분산 기술을 사용하여 기계 학습 모델을 빠르게 훈련하는 데 도움이 됩니다. EFA는 NVIDIA Collective Communications Library(NCCL)를 사용하여 수천 개의 GPU로 확장되며 GPUDirect RDMA 기술을 통해 P4d 인스턴스의 GPU 간 통신의 지연 시간을 단축합니다.

기계 학습 훈련 및 HPC의 인프라 비용 절감

P4d 인스턴스를 사용하면 P3 인스턴스 대비 최대 60% 저렴한 비용으로 기계 학습 모델을 훈련할 수 있습니다. 또한 P4d 인스턴스를 스팟 인스턴스로 구매할 수도 있습니다. 스팟 인스턴스는 사용하지 않는 EC2 인스턴스 용량을 활용하여 EC2 비용을 온디맨드 요금 대비 최대 90%까지 낮출 수 있습니다. P4d 인스턴스로 기계 학습 훈련 비용을 낮추면 예산을 재할당하여 더 많은 기계 학습 인텔리전스를 비즈니스 애플리케이션에 구축할 수 있습니다.

AWS 서비스로 손쉽게 시작하고 확장

AWS Deep Learning AMI(DLAMI)와 Amazon Deep Learning Containers를 사용하면 P4d DL 환경을 몇 분 안에 손쉽게 배포할 수 있습니다. 필요한 DL 프레임워크 라이브러리와 도구가 포함되어 있기 때문입니다. 자체 라이브러리와 도구를 이러한 이미지에 추가하기는 더 쉽습니다. P4d 인스턴스는 TensorFlow, PyTorch 및 MXNet과 같은 주요 기계 학습 프레임워크를 지원합니다. 또한 P4d 인스턴스는 Amazon SageMaker, Amazon Elastic Kubernetes Service(Amazon EKS), Amazon Elastic Container Service(Amazon ECS), AWS Batch 및 AWS ParallelCluster와 같은 기계 학습, 관리 및 오케스트레이션을 위한 주요 AWS 서비스에서 지원됩니다.

기능

NVIDIA A100 Tensor Core GPU 기반

NVIDIA A100 Tensor Core GPU는 기계 학습 및 HPC를 대규모로 가속화합니다. 이 가속화는 전례 없는 수준입니다. NVIDIA A100의 3세대 Tensor Core는 모든 정밀도의 워크로드를 가속화하여 인사이트를 빠르게 확보하고 출시를 앞당길 수 있도록 합니다. 각 A100 GPU는 이전 세대인 V100 GPU 대비 2.5배 향상된 컴퓨팅 성능을 제공하며 40GB HBM2(P4d 인스턴스) 또는 80GB HBM2e(P4de 인스턴스)의 고성능 GPU 메모리를 포함합니다. 더욱 뛰어난 성능의 GPU 메모리는 특히 고해상도 데이터의 대규모 데이터 세트에 대한 워크로드 훈련에 유용합니다. NVIDIA A100 GPU는 NVSwitch GPU 상호 연결 처리량을 사용합니다. 따라서 각 GPU는 동일한 인스턴스의 다른 모든 GPU와 동일한 600GB/s의 양방향 처리량과 단일 홉 지연 시간으로 통신할 수 있습니다.

고성능 네트워킹

P4d 인스턴스는 400Gbps의 네트워킹을 제공하므로 분산 워크로드를 확장하기가 더 쉽습니다. 예를 들어 P4d 인스턴스 간과 P4d 인스턴스와 스토리지 서비스(예: Amazon Simple Storage Service[S3] 및 FSx for Lustre) 간의 높은 네트워크 처리량을 통해 다중 노드 훈련을 보다 효율적으로 스케일 아웃할 수 있습니다. EFA는 기계 학습 및 HPC 애플리케이션을 수천 개의 GPU로 손쉽게 확장할 수 있도록 하기 위해 AWS가 설계한 사용자 지정 네트워크 인터페이스입니다. 지연 시간을 추가로 줄이기 위해 EFA를 NVIDIA GPUDirect RDMA와 함께 사용하면 OS 바이패스를 통해 여러 서버의 GPU 간 통신 지연 시간을 낮출 수 있습니다.

높은 처리량을 짧은 지연 시간으로 처리하는 스토리지

FSx for Lustre를 사용하여 페타바이트급의 높은 처리량과 짧은 지연 시간의 스토리지에 액세스하거나 Amazon S3를 사용하여 거의 무제한 스토리지를 400Gbps 속도로 비용 효율적으로 이용할 수 있습니다. 대규모 데이터 세트에 빠르게 액세스해야 하는 워크로드를 위해 각 P4d 인스턴스에는 초당 16GB의 읽기 처리량을 제공하는 8TB의 NVMe 기반 SSD 스토리지도 포함됩니다.

AWS Nitro System 기반

P4d 인스턴스는 기존의 여러 가상화 기능을 전용 하드웨어 및 소프트웨어로 오프로드하여 고성능, 고가용성 및 뛰어난 보안을 제공하면서 가상화 오버헤드를 줄이는 구성 요소의 풍부한 모음인 AWS Nitro System을 기반으로 구축됩니다.

고객 추천사

고객과 파트너가 Amazon EC2 P4 인스턴스를 사용하여 비즈니스 목표를 달성한 몇 가지 사례를 소개합니다.

Toyota Research Institute (TRI)

2015년에 설립된 Toyota Research Institute(TRI)는 Toyota의 자동 주행, 로보틱스 및 기타 인간 증폭 기술을 개발합니다.

TRI는 모든 사람이 자유롭게 이동할 수 있는 미래를 만들기 위해 노력하고 있습니다. 이전 세대인 P3 인스턴스는 ML 모델 훈련 시간을 며칠에서 몇 시간으로 줄이는 데 도움이 되었습니다. 향후에는 P4d 인스턴스를 활용할 계획인데 GPU 메모리가 추가되고 float 형식의 효율성이 개선되면 기계 학습 팀에서 더 복잡한 모델을 훨씬 더 빠른 속도로 훈련할 수 있기 때문입니다.

Mike Garrison, TRI Technical Lead, Infrastructure Engineering
TRI-AD

TRI-AD는 적응형 주행 및 스마트 시티를 사용하여 차량 사고 및 사망자 수를 줄이는 데 중점을 두고, 모든 사람이 자유롭게 이동하고 탐색할 수 있는 미래를 만들고 있습니다. Amazon EC2 P4d 인스턴스를 사용한 후로 기존 코드의 수정 없이 이전 세대 GPU 인스턴스를 사용할 때보다 객체 인식을 위한 훈련 시간이 40% 단축되었습니다.

Junya Inada, TRI-AD Director of Automated Driving(Recognition)
TRI-AD

Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대 GPU 인스턴스를 사용할 때보다 훈련 비용이 즉각적으로 절감되었고 그 덕에 모델 훈련에 투입되는 팀의 수를 늘릴 수 있었습니다. P4d의 개선된 네트워킹을 통해 수십 개 인스턴스를 효율적으로 확장할 수 있었으며 테스트 차량 또는 향후 테스트를 위한 시뮬레이션 환경에서 모델을 더 빠르게 최적화하고 재훈련하고 배포할 수 있었습니다.

Jack Yan, Senior TRI-AD Senior Director of Infrastructure Engineering
GE Healthcare

GE Healthcare는 선도적인 글로벌 의료 기술 및 디지털 솔루션을 제공하는 혁신 기업입니다. GE Healthcare는 Edison 인텔리전스 플랫폼이 지원하는 지능형 디바이스, 데이터 분석, 애플리케이션 및 서비스를 통해 더 빠르고 더 많은 정보에 입각한 임상 의사 결정을 지원합니다.

GE Healthcare는 임상에서 데이터를 수집하고, AI 및 분석을 이 데이터에 적용하여 환자 결과를 개선하는 인사이트를 얻으며, 효율성을 개선하고 오류를 없애는 데 도움이 되는 도구를 제공합니다. 당사의 의료 영상 디바이스는 데이터 사이언티스트가 처리해야 하는 방대한 양의 데이터를 생성합니다. 이전 GPU 클러스터를 사용했다면 진행형 GAN과 같은 복잡한 AI 모델을 훈련하여 시뮬레이션하고 결과를 보기까지 며칠이 걸렸을 것입니다. 새로운 P4d 인스턴스를 사용한 후로 처리 시간이 며칠에서 몇 시간으로 단축되었습니다. 다양한 이미지 크기를 사용한 모델 훈련의 속도가 2배에서 3배까지 개선되었을 뿐 아니라 배치 크기가 늘어나고 생산성이 개선된 덕에 더 높은 성능을 달성하는 동시에 모델 개발 주기를 가속화할 수 있었습니다.

Karley Yoder, GM Healthcare Artificial Intelligence VP&GM
HEAVY.AI

HEAVY.AI는 가속 분석의 선구자입니다. HEAVY.AI 플랫폼은 비즈니스 및 정부 기관에서 메인스트림 분석 도구의 한계를 넘어 데이터에서 인사이트를 찾는 데 사용됩니다.

HEAVY.AI는 데이터 과학과 분석의 융합을 통해 데이터 사일로를 없애고 결합하는 미래를 만들고 있습니다. 당사의 고객은 시공간 데이터의 세분화된 시각화를 통해 현재의 상황은 물론 상황이 일어나는 시기와 장소를 보여주는 전체 그림을 그리는 데 필요한 위치와 시간이 포함될 수 있는 방대한 양의 데이터를 활용합니다. 우리의 기술은 숲과 나무를 모두 볼 수 있게 해줍니다. Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대 GPU 인스턴스에 비해 플랫폼 배포 비용이 대폭 줄었고 그 결과 방대한 양의 데이터 세트를 비용 효율적으로 확장할 수 있었습니다. A100의 개선된 네트워킹 덕에 수십억 개의 데이터 행을 효율적으로 확장하고 인사이트를 더 빠르게 얻을 수 있도록 고객을 지원할 수 있게 되었습니다.

Ray Falcione, HEAVY.AI VP of US Public Sector
Zenotech Ltd.

Zenotech Ltd는 HPC 클라우드를 사용하여 온디맨드 라이선싱 모델을 제공하고 GPU를 활용하여 성능을 극한으로 끌어올림으로써 온라인 엔지니어링을 재정의하고 있습니다.

Zenotech는 더 효율적이고 친환경적인 제품을 설계할 수 있는 도구를 개발하는 데 전념합니다. 당사의 도구는 여러 산업에서 사용되며 대규모 시뮬레이션을 통해 제품 성능에 대한 인사이트를 제공합니다. AWS P4d 인스턴스를 사용하면 이전 세대 GPU를 사용할 때보다 3.5배 더 빠르게 시뮬레이션을 실행할 수 있습니다. 이 속도는 해결 시간을 단축하여 이전보다 더 빠르게 설계를 출시하거나 충실도가 더 높은 시뮬레이션을 수행할 수 있게 합니다.

Jamil Appa, Zenotech Director & Cofounder
Aon

Aon은 광범위한 위험, 은퇴 및 의료 솔루션을 제공하는 선도적인 글로벌 전문 서비스 회사입니다. Aon PathWise는 보험사 및 재보험사, 은행 및 연금 기금에서 헤지 전략 테스트, 규제 및 경제 예측과 예산 계획 같은 현재의 주요 당면 과제를 해결하는 데 사용할 수 있는, GPU 기반의 확장 가능한 HPC 위험 관리 솔루션입니다.

PathWise Solutions Group LLC의 제품은 보험 회사, 재보험사 및 연금 기금에서 기계 학습, 헤지 전략 테스트, 규제 및 금융 보고, 비즈니스 계획 및 경제 예측과 신제품 개발 및 요금 책정과 같은 현재의 주요 보험 당면 과제를 빠르게 해결할 수 있는 차세대 기술에 대한 액세스를 제공합니다. Amazon EC2 P4d 인스턴스를 사용한 후로 가장 까다로운 계산에서도 이전 세대 GPU 인스턴스를 사용할 때보다 1자리 및 2자리 정밀도 계산을 수행할 때 속도가 놀라울 정도로 빨라졌고 그 덕에 당사의 고객들은 처음으로 새로운 범위의 계산과 예측을 수행할 수 있게 되었습니다. 속도가 중요하며 AWS의 새로운 인스턴스 덕에 당사는 앞으로도 의미 있는 가치와 최신 기술을 고객에게 제공할 수 있을 것입니다.

Van Beach, Aon Pathwise Strategy and Technology Group Life Solutions Global Head
Rad AI

방사선 및 AI 전문가로 구성된 Rad AI는 방사선 전문의의 생산성을 극대화하여 궁극적으로 의료 접근성을 넓히고 환자 결과를 개선하는 제품을 구축합니다. 사례 연구를 읽고 자세히 알아보기

Rad AI의 미션은 고급 의료 서비스의 접근성을 모두에게로 확대하는 것입니다. Rad AI는 의료 영상 워크플로에 중점을 두고 방사선 전문의의 업무 시간을 줄여주고, 과로를 방지하며, 정확도를 개선합니다. Rad AI는 AI를 사용하여 방사선 워크플로를 자동화하고 방사선 보고를 간소화합니다. 새로운 Amazon EC2 P4d 인스턴스를 사용한 후로 이전 세대인 P3 인스턴스보다 추론 시간이 단축되었고 더 높은 정확성으로 2.4배 더 빠르게 모델을 훈련할 수 있게 되었습니다. 그 결과 진단의 속도와 정확성이 개선되었고 당사의 고객들이 제공하는 고급 방사선 서비스에 대한 접근성이 미국 전역으로 확대되었습니다.

Doktor Gurson, Rad AI Cofounder

제품 세부 정보

인스턴스 크기	vCPU	인스턴스 메모리(GiB)	GPU – A100	GPU 메모리	네트워크 대역폭(Gbps)	GPUDirect RDMA	GPU P2P	인스턴스 스토리지(GB)	EBS 대역폭(Gbps)	온디맨드 요금/시간	1년 예약 인스턴스 실질 시간당*	3년 예약 인스턴스 실질 시간당*
p4d.24xlarge	96	1152	8	320GB HBM2	400 ENA 및 EFA	예	600GB/s NVSwitch	8 x 1,000 NVMe SSD	19	32.77 USD	19.22 USD	11.57 USD
p4de.24xlarge(평가판)	96	1152	8	640GB HBM2e	400 ENA 및 EFA	예	600GB/s NVSwitch	8 x 1,000 NVMe SSD	19	40.96 USD	24.01 USD	14.46 USD

* 위의 요금은 미국 동부(버지니아 북부) AWS 리전의 Linux/Unix에 적용되며, 가장 가까운 센트로 반올림됩니다. 전체 요금 내역은 Amazon EC2 요금을 참조하세요.

P4d 인스턴스는 미국 동부(버지니아 북부 및 오하이오), 미국 서부(오레곤), 아시아 태평양(서울 및 도쿄) 및 유럽(프랑크푸르트 및 아일랜드) 리전에서 사용할 수 있습니다. P4de 인스턴스는 미국 동부(버지니아 북부) 및 미국 서부(오레곤) 리전에서 사용할 수 있습니다.

온디맨드 인스턴스, 예약 인스턴스, 스팟 인스턴스, 전용 호스트 또는 절감형 플랜의 일부로 P4d 및 P4de 인스턴스를 구입할 수 있습니다.

ML용 P4d 인스턴스 시작하기

Amazon SageMaker 사용하기

Amazon SageMaker는 기계 학습 모델의 구축, 훈련 및 배포를 위한 완전관리형 서비스입니다. P4d 인스턴스와 함께 사용하면 수십, 수백 또는 수천 개의 GPU로 손쉽게 확장하여 클러스터와 데이터 파이프라인 설정에 대한 걱정 없이 모든 규모에서 신속하게 모델을 훈련할 수 있습니다.

DLAMI 또는 Deep Learning Containers 사용

DLAMI는 ML 실무자 및 연구원에게 규모와 관계없이 클라우드에서 DL을 가속화할 수 있는 인프라 및 도구를 제공합니다. Deep Learning Containers는 DL 프레임워크가 사전에 설치된 Docker 이미지로, 처음부터 환경을 구축하고 최적화하는 복잡한 프로세스를 건너뜀으로써 사용자 지정 기계 학습 환경을 신속하게 배포할 수 있도록 지원합니다.

Amazon EKS 또는 Amazon ECS 사용

컨테이너 오케스트레이션 서비스를 통해 자체 컨테이너식 워크로드를 관리하고자 하는 경우 Amazon EKS 또는 Amazon ECS를 통해 P4d 인스턴스를 배포할 수 있습니다.

HPC용 P4d 인스턴스 시작하기

P4d 인스턴스는 엔지니어링 시뮬레이션, 컴퓨팅 금융, 내진 해석, 분자 모델링, 유전체학, 렌더링 및 기타 GPU 기반 HPC 워크로드를 실행하기에 적합합니다. HPC 애플리케이션에는 뛰어난 네트워크 성능, 빠른 스토리지, 대용량 메모리, 뛰어난 컴퓨팅 성능 또는 위의 모든 성능이 필요할 때가 많습니다. P4d 인스턴스는 EFA를 지원하므로 메시지 전달 인터페이스(MPI)를 사용하여 수천 개의 GPU로 확장되는 HPC 애플리케이션을 지원할 수 있습니다. AWS Batch 및 AWS ParallelCluster는 HPC 개발 작업에서 분산 HPC 애플리케이션을 빠르게 구축하고 확장하는 데 도움이 됩니다.

자세히 알아보기

블로그 게시물 및 기사

기계 학습 및 HPC를 위한 GPU 탑재 EC2 P4

작성자: Jeff Barr, 2020년 11월 2일

블로그 읽기

Amazon EC2 P4d 인스턴스 심층 분석

작성자: Amr Ragab, 2020년 11월 2일

블로그 읽기

추가 리소스

AWS 시작하기

1단계: AWS 계정에 가입

AWS 프리 티어에 즉시 액세스할 수 있습니다.

자세히 알아보기

2단계: 10분 자습서로 알아보기

간단한 자습서를 통해 자세히 알아보십시오.

자세히 알아보기

3단계: AWS를 사용하여 구축 시작

AWS 프로젝트를 시작하는 데 도움이 되는 단계별 안내서를 통해 빌드를 시작하십시오.

자세히 알아보기

Amazon EC2 P4 인스턴스

클라우드의 기계 학습 훈련 및 HPC 애플리케이션을 위한 고성능