BLOG

AWS Deep Learning AMI에는 Horovod가 포함되어있어 Amazon EC2 P3 인스턴스에서 더 빠른 멀티 GPU TensorFlow 훈련이 가능합니다!
작성일: 2018년 6월 27일

UbuntuAmazon Linux AWS Deep Learning AMI는 이제 다수의 GPU에서 TensorFlow 훈련을 확장할 수 있는 인기있는 오픈 소스 분산 교육 프레임워크인 Horovod를 사용하여 사전 설치 및 완벽한 구성이 가능합니다.

 

이것은 5 월 초에 출시한 TensorFlow 1.8의 최적화된 빌드에 대한 업데이트입니다. 이 맞춤형 TensorFlow 1.8 빌드는 고급 최적화를 통해 소스에서 직접 제작되며 Amazon EC2 C5 및 P3 인스턴스의 TensorFlow 1.8 재고와 비교하여 향상된 훈련 성능을 제공합니다. AMI에 Horovod가 추가됨으로써 기계 학습 개발자는 TensorFlow 훈련을 단일 GPU에서 P3과 같은 Amazon EC2 GPU 인스턴스의 여러 GPU로 신속하게 확장함으로써 훈련 성능을 더욱 향상시킬 수 있습니다. 개발자는 매개 변수 서버를 사용하는 표준 TensorFlow 분산 교육 모델에 비해 적은 코드 변경으로 더 높은 수준의 다중 GPU 훈련 성능을 얻을 수 있습니다.

 

Amazon EC2 P3 인스턴스에서 신속한 멀티 GPU TensorFlow 훈련

 

Horovod는 MPI (Message Passing Interface) 모델을 따릅니다. 이는 고성능 분산 컴퓨팅 환경에서 노드 간 메시지 전달 및 통신 관리에 널리 사용되는 표준입니다. Horovod의 MPI 구현은 매개 변수 서버 기반 분산 교육 모델에 비해 프로그래밍 모델을 단순화합니다. 이 모델을 통해 개발자는 최소한의 코드 변경만으로 기존 단일 GPU 교육 프로그램을 쉽게 확장 할 수 있습니다. 또한 Horovod는 Amazon EC2 GPU 인스턴스를 지원하는 NVIDIA GPU에서 더 빠른 성능을 달성하기 위해 all-reduce와 같은 다중 GPU 통신 프리미티브 구현을 최적화하기 위해 Deep Learning AMI에 설치된 NVIDIA Collective Communications Library (NCCL)를 활용합니다.

 

Horovod를 사용한 실험에서 TensorFlow 1.8을 사용하는 것보다 훈련이 1.2 배 빨랐습니다. AWS Deep Learning AMI에서 최적화된 TensorFlow 1.8 빌드를 사용하여 ImageNet 데이터셋으로 ResNet-50 모델을 훈련했습니다. AMI는단일 p3.16xlarge EC2 인스턴스 상에서 NVIDIA CUDA 9.0, cuDNN 7.0.5, NCCL 2.1 및 OpenMPI 1.10.7을 사용하여 에 8 NVIDIA Volta V100 GPU에서 2048의 배치 크기를 갖는 혼합 정밀도 (fp-16) 모드로 모델을 훈련합니다.

 

표준 TensorFlow 분산 교육 모델을 사용하여 p3.16x 인스턴스의 8 GPU에 대한 훈련을 통해 초당 4249 이미지 처리량을 얻을 수 있었으며, 전체 작업 시간은 7.67 시간 (27,621 초)이었습니다. 훈련 프로그램은 90 개의 epoch에서 75.49 %의 최상위 유효성 검증 정확도를 달성했습니다. Horovod를 사용하면 처리량이 초당 5058 개 이미지 (1.2 배 빨라짐)로 향상되고 총 소요 시간이 6.36 시간 (22,906 초)으로 단축되어 75.59 %의 최상위 유효성 검증 정확도를 얻었습니다. 개발자 가이드에서 이 실험을 디자인하고 수행하기 위한 단계별 가이드를 읽을 수 있습니다.

 

이 실험의 목적은 Horovod의 성능과 유용성 이점을 설명하는 데 있습니다. Horovod를 사용하여 빠르고 쉽게 분산된 TensorFlow 훈련을 하는 방법에 대한 자세한 내용은 Horovod 사이트를 방문하십시오.

 

Deep Learning AMI 시작하기

 

AWS Deep Learning AMI는 시작 자습서개발자 안내서에서 자습서, 자원 및 릴리스 노트에 대한 정보를 빠르게 얻을 수 있습니다. AWS Market place에서 최신 AMI를 사용할 수 있습니다. 또한 Discussion 포럼에 가입하여 새로운 출시에 대한 공지를 받고 질문을 게시 할 수 있습니다.

 

원문 URL: https://aws.amazon.com/ko/blogs/machine-learning/aws-deep-learning-amis-now-include-horovod-for-faster-multi-gpu-tensorflow-training-on-amazon-ec2-p3-instances/

** 메가존 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.