BLOG

NVIDIA T4 텐서 코어 GPU를 갖춘 EC2 인스턴스(G4)
작성일: 2019-11-07

올해 초에 AWS에서 발표했던 것처럼 NVIDIA 기반 G4 인스턴스가 이제 출시되어 9개 AWS 리전에서 6개 크기로 사용할 수 있게 되었습니다! 또한 머신 러닝 교육 및 추론, 비디오 트랜스 코딩, 게임 스트리밍 및 원격 그래픽 워크 스테이션 응용 프로그램에 사용할 수 있습니다.

이 인스턴스에는 최대 320개의 Turing Tensor 코어, 2,560 CUDA 코어 및 16GB 메모리가 장착된 최대 4개의 NVIDIA T4 Tensor Core GPU가 탑재되어 있습니다. T4 GPU는 머신 러닝 추론, 컴퓨터 비전, 비디오 처리 및 실시간 음성 및 자연어 처리에 이상적입니다. T4 GPU는 또한 효율적인 하드웨어 기반 광선 추적을위한 RT 코어를 제공합니다. 엔비디아 쿼드로 가상 워크 스테이션(쿼드 VWS)는 이제 AWS 마켓 플레이스에서 이용하실 수 있습니다. 이는 실시간 광선 추적 렌더링을 지원하며 미디어 및 엔터테인먼트, 건축 및 석유 및 가스 응용 분야에서 흔히 볼 수 있는 창의적인 워크 플로우를 가속화 할 수 있습니다.

G4 인스턴스는 AWS-사용자 정의에 의해 구동되는 2 세대 인텔 ® 제온 ® 확장 (캐스케이드 호수) 최대 64 개의 vCPU와 프로세서, 그리고 AWS 니트로 시스템에 내장되어 있습니다. Nitro의 로컬 NVMe 스토리지 빌딩 블록은 최대 1.8TB의 빠른 로컬 NVMe 스토리지에 직접 액세스할 수 있습니다. Nitro의 네트워크 빌딩 블록은 고속 ENA 네트워킹을 제공합니다.  Intel AVX512-Deep Learning Boost 기능은 Vector Neural Network Instructions(줄여서 VNNI)의 새로운 세트로 AVX512를 확장합니다. 이 명령어는 많은 추론 알고리즘의 내부 루프에 있는 낮은 정밀도의 곱셈 및 더하기 연산을 가속화합니다.

인스턴스 크기는 다음과 같습니다.

인스턴스 이름 NVIDIA T4 텐서 코어 GPU vCPU 로컬 스토리지 EBS 대역폭 네트워크 대역폭
g4dn.xlarge 1 4 16GiB 1 x 125GB 최대 3.5Gbps 최대 25Gbps
g4dn.2xlarge 1 8 32GiB 1 x 225GB 최대 3.5Gbps 최대 25Gbps
g4dn.4xlarge 1 16 64GiB 1 x 225GB 최대 3.5Gbps 최대 25Gbps
g4dn.8xlarge 1 32 128 기가 바이트 1 x 900GB 7Gbps 50Gbps
g4dn.12xlarge 4 48 192GiB 1 x 900GB 7Gbps 50Gbps
g4dn.16x 큰 1 64 256GiB 1 x 900GB 7Gbps 50Gbps

 

또한 앞으로 몇 달 안에 다음과 같은 베어 메탈 인스턴스도 제공될 예정입니다.

인스턴스 이름 NVIDIA T4 텐서 코어 GPU vCPU 로컬 스토리지 EBS 대역폭 네트워크 대역폭
g4dn. 금속 8 96 384GiB 2 x 900GB 14Gbps 100Gbps

 

G4 인스턴스에서 그래픽 워크로드를 실행하려면 최신 버전의 NVIDIA AMI(AWS Marketplace 에서 사용 가능)를 사용하여 필수 GRID 및 그래픽 드라이버와 함께 포함된 NVIDIA Quadro Workstation 이미지에 액세스 할 수 있도록 하십시오. 최신 최적화 및 패치는 다음에서 찾을 수 있습니다.

  • NVIDIA 게임 – Windows Server 2016
  • NVIDIA 게임 – Windows Server 2019
  • 엔비디아 게임 – 우분투 18.04

최신 AWS Deep Learning AMI 에는 G4 인스턴스 지원이 포함됩니다. 정보 AMIS를 생산하는 팀은 g4dn.12xlarge의 인스턴스에 맞서 g3.16xlarge 인스턴스를 벤치 마크했습니다. 그 결과에 대한 주요 내용은 다음과 같습니다.

  • MxNet 추론 (resnet50v2, MMS없는 정방향 통과) – 2.03배 더 빠름.
  • MxNet 추론 (MMS 포함) – 1.45배 빠름.
  • MxNet Training (resnet50_v1b, 1 GPU) – 2.19 배 빠름.
  • Tensorflow Inference (resnet50v1.5, 정방향 패스) – 2.00 배 빠름.
  • Tensorflow Service를 사용한 Tensorflow 추론 (resnet50v2) – 1.72 배 빠름.
  • Tensorflow Training (resnet50_v1.5) – 2.00 배 빠름.

 

벤치 마크는 FP32 숫자 정밀도를 사용했습니다. 혼합 정밀도(FP16) 또는 낮은 정밀도(INT8)를 사용하면 더 큰 향상을 기대할 수 있습니다.

현재 G4 인스턴스는 2019년 10월 1일부터 서울을 포함하여 미국 동부 (버지니아 북부), 미국 동부(오하이오), 미국 서부(오레곤), 미국 서부(캘리포니아), 유럽​​(프랑크푸르트), 유럽​​(아일랜드), 유럽(런던), 도쿄 리전에서 이용 가능합니다.

 

원문 URL: https://aws.amazon.com/ko/blogs/aws/now-available-ec2-instances-g4-with-nvidia-t4-tensor-core-gpus/

 

** 메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.