BLOG

새로운 기능 – 더 빠른 머신 러닝 및 P3 가격 인하를 위한 100Gbps 네트워킹 및 로컬 NVMe 스토리지를 갖춘 EC2 P3dn GPU 인스턴스
작성일: 2018-12-20

Voiced by Amazon Polly

(원문에서 다운로드받으세요)

 

작년 말 저는 여러분에게 Amazon EC2 P3 인스턴스에 대해 말했고 또한 기계 학습 훈련을 가속화하고 대형 신경 네트워크를 위한 추론을 가속화하도록 설계된 전문 컴퓨팅 유닛인 Tensor Core의 개념에 대해 논의하는데 시간을 보냈습니다. 저희의 고객들은 P3 인스턴스를 좋아하고 다양한 기계 학습과 HPC 워크로드를 실행하기 위해 사용하고 있습니다. 예를 들어, fast.ai은 40 달러에 1백만 개의 이미지로 ResNet-50 딥러닝 모델을 훈련하면서 딥 러닝의 속도 기록을 세웠습니다.

 

Raise the Roof

오늘 저희는 p3dn.24xlarge 인스턴스를 추가하고, 2배 이상의 GPU 메모리와 1.5배 많은 vCPU를 p3.16xlarge 인스턴스에 추가하여 P3 제품을 맨 위에 확장할 것입니다. 이 인스턴스는 100Gbps 네트워크 대역폭(이전 P3 인스턴스의 대역폭 최대 4배), 로컬 NVMe 스토리지, 32GB의 GPU 메모리를 갖춘 최신 NVIDIA V100 Tensor Core GPU, 빠른 GPU 간 통신을 위한 NVIDIA NVLink, 3.1GHz의 지속적인 올코어 터보에서 실행되는 AWS-custom Intel® Xeon® Scalable(Skylake) 프로세서 특징을 보입니다. 모두 AWS 니트로 시스템 위에 구축되었습니다. 이 스펙은 4입니다.

 

Model NVIDIA V100 Tensor Core GPUs GPU Memory NVIDIA NVLink vCPUs Main Memory Local Storage Network Bandwidth EBS-Optimized Bandwidth
p3dn.24xlarge 8 256 GB 300 GB/s 96 768 GiB 2 x 900 GB NVMe SSD 100 Gbps 14 Gbps

 

MXNetTensorFlowPyTorch 또는 Keras를 사용하여 대규모 교육 실행을 수행하는 경우 Amazon Deep Learning AMI에 포함된 Horovod 분산 교육 프레임워크를 확인하십시오. 또한 AWS Marketplace에 있는 새로운 NVIDIA AI 소프트웨어 컨테이너를 확인하십시오. 이러한 컨테이너는 V100 GPU와 함께 P3 인스턴스에서 사용하도록 최적화되어 있습니다.

 

총 256GB의 GPU 메모리(현재 P3 인스턴스 중 두 배)로 p3dn.24xlarge는 더 크고 더 복잡한 딥 러닝 알고리즘을 탐색할 수 있습니다. 여러분은 Intel AVX-512 지침과 기타 첨단 Skylake 기능을 활용하면서 그 어느 때보다 빠르게 교육 이미지를 회전하고 확장할 수 있습니다. 여러분의 GPU 코드는 NVLink와 NCCL(NVLink Collective Communications Library)을 사용하여 여러 GPU 및/또는 인스턴스로 확장될 수 있습니다. NCCL을 사용하면 배치 그룹에서 사용할 때 인스턴스 간에 사용할 수 있는 네트워크 대역폭의 100Gbps를 충분히 활용할 수 있습니다.

 

이러한 사례는 분산 기계 학습 훈련 및 이미지 분류에 적합할 뿐만 아니라 HPC 작업에 충분한 힘을 제공합니다. 3D 이미지를 렌더링하고, 비디오를 실시간으로 전송하고, 재무 위험을 모델링할 수 있습니다.

 

ENA, NVMe 및 NVIDIA 드라이버가 포함되어 있는 한 기존 AMI를 사용할 수 있습니다. 100Gbps 네트워킹을 사용하려면 최신 ENA 드라이버로 업그레이드해야 합니다. Deep Learning AMI를 사용하는 경우 AVX-512에 최적화된 최신 버전을 사용하십시오.

 

이용 가능합니다

현재 미국 동부(북 버지니아)와 미국 서부(오리건) 리전에서 p3dn.24xlarge의 인스턴스를 사용할 수 있으며, 오늘날에는 온디맨드, 스폿 및 예약 인스턴스 형식으로 사용할 수 있습니다.

 

보너스 – P3 가격 인하

런칭의 일환으로 저희는 또한 기존 P3 인스턴스의 가격을 낮추고 있습니다. 다음 가격은 2018년 12월 6일부터 적용되었습니다.

 

  • 아시아 태평양(도쿄) 리전의 모든 가격(온디맨드 및 RI) 및 모든 인스턴스 크기 – 20% 절감
  • 아시아 태평양(시드니), 아시아 태평양(싱가포르), 아시아 태평양(서울) 리전의 모든 가격(온디맨드 및 RI) 및 모든 인스턴스 크기 – 15% 할인
  • 아시아 태평양(토쿄), 아시아 태평양(시드니), 아시아 태평양(싱가포르) 및 아시아 태평양(서울)을 제외한 모든 리전에서 모든 인스턴스 크기 – 3년 임기의 표준 RI 15% 감소

 

이 비율은 Linux를 실행하는 인스턴스에 적용되며, Microsoft Windows 및 기타 운영 체제를 실행하는 인스턴스에는 약간 더 적은 비율이 적용됩니다.

이러한 감소는 여러분의 기계학습 훈련과 추론 비용을 훨씬 더 저렴하게 만드는 데 도움이 될 것이며, 저희가 기계 학습을 모든 개발자의 손에 맡기는 저희의 목표를 추구함에 따라 여려분에게 전달되고 있습니다.

 

원문 URL : https://aws.amazon.com/ko/blogs/aws/new-ec2-p3dn-gpu-instances-with-100-gbps-networking-local-nvme-storage-for-faster-machine-learning-p3-price-reduction/

** 메가존클라우드 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.