BLOG

Amazon EC2 업데이트 – 고성능으로 비용 효과가 높은 추론을 위한 AWS Inferentia 칩이 포함 된 Inf1 인스턴스
작성일: 2020-01-03

고객은 머신 러닝을 크게 활용 하고 있습니다. 이들은 객체 탐지, 음성 인식, 자연어 처리, 개인화 및 부정 검출 등 다양한 유형의 워크로드를 실행하고 있습니다. 대규모 프로덕션 워크로드에서 실행하는 경우, 추론을 최대한 빠르고 비용 효율적으로 수행 할 수 있어야 합니다. 사용자들의 말에 따르면 추론은 머신 러닝 작업 비용의 최대 90 %를 차지할 수 있다고 합니다.

 

새로운 Inf1 인스턴스 (버지니아, 오레곤 리전)

2019년 12월 3일, AWS는 4 가지 크기의 Inf1 인스턴스를 출시했습니다. 이 인스턴스들에는 AWS Inferentia 칩이 탑재 되어 있으며, 대기 시간이 짧은 빠른 추론을 제공하도록 설계 되어 있습니다. 이 칩은 추론 프로세스를 가속화하도록 설계되었고, 각 칩은 다음과 같은 성능을 제공할 수 있습니다.

 

  • 16 비트 부동 소수점(FP16 및 BF16) 및 혼합 정밀도 데이터의 64 테라 OPS
  • 8 비트 정수(INT8) 데이터의 128 테라 OPS

 

칩에는 고속 상호 연결 및 많은 메모리가 포함됩니다. 가장 큰 인스턴스에 16 개의 칩이 탑재 되어 있기 때문에, 기존 및 신규 TensorFlow, PyTorch 및 MxNet 추론 워크로드는 2 페타 OPS 이상의 추론 성능을 활용할 수 있습니다. G4 인스턴스와 비교할 때 Inf1 인스턴스는 최대 3배의 추론 처리량을 제공하고 최대 40%의 추론 당 비용을 절감합니다.

 

크기와 사양은 다음과 같습니다.

 

인스턴스 이름 Inferentia 칩 vCPUs RAM EBS대역폭 네트워크 대역폭
inf1.xlarge 1 4 8GiB 최대 3.5Gbps 최대 25Gbps
inf1.2xlarge 1 8 16GiB 최대 3.5Gbps 최대 25Gbps
inf1.6xlarge 4 24 48GiB 3.5Gbps 25Gbps
inf1.24xlarge 16 96 192GiB 14Gbps 100Gbps

 

이 인스턴스는 맞춤형 2 세대 인텔 ® Xeon ® 확장 가능 (캐스케이드 레이크) 프로세서를 사용하며, 온 디맨드, 스팟 및 예약 완료 인스턴스 형태로 제공되거나 절약 계획의 일부로 제공됩니다. 현재로써는 버지니아 북부(미국 동부) 및 오레곤(미국 서부) 리전에서만 사용 가능합니다. 곧 Amazon SageMaker 및 Amazon ECS, and Amazon Elastic Kubernetes Service. 를 통해 다른 리전에서도 인스턴스를 직접 사용하실 수 있습니다.

 

Inf1 인스턴스의 사용

Amazon Deep Learning AMIs 가 업데이트되어, Inf1 인스턴스에 사용하도록 최적화된 TensorFlow 및 MxNet 버전이 포함되어 있습니다. PyTorch는 곧 출시될 예정입니다. AMI에는 AWS Neuron SDK가 포함되어 있습니다. 여기에는 Inferentia칩에서 ML 모델을 컴파일, 최적화 및 실행하는 명령이 포함되어 있습니다. 고유한 AMI 및 이미지에 SDK를 포함할 수도 있습니다.

 

P3 또는 P3dn과 같은 GPU 인스턴스에서 모델을 구축하고 트레이닝 한 다음 실제 가동 환경에서 사용하기 위해 Inf1 인스턴스로 이동할 수 있습니다. FP16에서 기본적으로 학습된 모델을 사용하거나 32 비트 정밀도로 학습된 모델을 사용하고 AWS Neuron에서 자동으로 BF16 형식으로 변환하도록 할 수 있습니다. 언어 번역 또는 자연어 처리와 같은 대형 모델은 대기 시간을 줄이기 위해 여러 개의 Inferentia 칩으로 분할할 수 있습니다.

 

또한 AWS Neuron SDK를 사용하면 모델을 Neuron 컴퓨팅 그룹에 할당하고 동시에 실행할 수 있습니다. 따라서 각 Inferentia 칩의 대규모 온 칩 캐시를 활용하여 하드웨어 활용을 최대화하고 Neuron Core Pipeline 모드의 일부로 여러 모델을 사용할 수 있습니다. 자세한 내용은 AWS Neuron SDK 자습서를 읽어 보시길 바랍니다!

 

 

원문 URL: https://aws.amazon.com/ko/blogs/aws/amazon-ec2-update-inf1-instances-with-aws-inferentia-chips-for-high-performance-cost-effective-inferencing/

 

** 메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.