BLOG

이제 Amazon SageMaker 내장 알고리즘에 대한 보다 빠른 교육을 위해 CSV 데이터셋으로 Pipe 모드를 사용하세요.
작성일: 2018년 11월 6일

Amazon SageMaker 내장 알고리즘은 이제 기계 학습 (ML) 모델을 학습하는 동안 Amazon Simple Storage Service (S3)에서 Amazon SageMaker로 CSV 형식의 데이터셋을 가져 오는 파이프 모드를 지원합니다.

 

파이프 입력 모드를 사용하면 모델 트레이닝이 진행되는 동안 데이터가 알고리즘 컨테이너로 직접 스트리밍됩니다. 이것은 교육을 시작하기 전에 로컬 Amazon Elastic Block Store (EBS) 볼륨에 데이터를 다운로드하는 파일 모드와는 다릅니다. 파이프 모드를 사용하면 교육 작업이 더 빨리 시작되고 훨씬 적은 디스크 공간을 사용하여 더 빨리 완료 할 수 있습니다. 이렇게 하면 기계 학습 모델을 학습하는 데 드는 전체 비용을 줄일 수 있습니다. 3.9GB CSV 데이터셋에서 Amazon SageMaker 선형 학습 알고리즘으로 회귀 모델을 교육한 일부 내부 벤치 마크에서 파일 모드 대신 파이프 모드를 사용하여 모델 교육에 소요되는 전체 시간이 최대 40 % 단축되었습니다. 이 글에서 파이프 모드와 그 이점에 대해 더 많이 읽을 수 있습니다.

 

Amazon SageMaker 내장 알고리즘에서 파이프 모드 사용

올해 초 저희는 내장된 Amazon SageMaker 알고리즘을 위해 파이프 입력 모드를 출시했을 때 protobuf recordIO 형식으로 만 데이터를 지원했습니다. 이것은 높은 처리량 훈련 작업을 위해 특수하게 설계된 특수 형식입니다. 오늘의 출시로 저희는 CSV 형식의 교육 데이터셋에 파이프 입력 모드의 성능 이점을 확장하고 있습니다. 다음 Amazon SageMaker 내장 알고리즘은 이제 파이프 입력 모드를 사용하여 CSV 형식의 데이터셋을 사용한 교육을 완벽하게 지원합니다.

 

  • 주성분 분석 (PCA)
  • K-Means Clustering
  • K-Nearest Neighbors
  • 선형 학습자 (Classification and Regression)
  • 신경 주제 모델링
  • Random Cut Forest

 

교육 작업에서 이 새로운 기능을 활용하려면 CSV 데이터셋의 Amazon S3 위치를 평소와 같이 지정하고 “파일” 대신 “파이프”를 입력 모드로 선택하십시오. CSV 데이터셋은 데이터 형식이나 코드 변경 없이 원활하게 스트리밍됩니다.

 

CSV 최적화 파이프 모드를 사용하여 보다 빠른 교육하기

CSV 형식의 데이터셋에 대한 새로운 파이프 모드 구현은 고도로 최적화된 높은 처리량 프로세스입니다. 파이프 입력 모드를 사용하여 성능이 향상되었음을 입증하기 위해 두 개의 합성 CSV 데이터셋을 통해 Amazon SageMaker 선형 학습 알고리즘을 교육했습니다.

 

첫 번째 데이터셋 (3.9GB CSV 파일)은 2 백만 개의 레코드를 포함하며 각 레코드는 쉼표로 구분된 단일 고정 부동 소수점 값 100 개를 포함합니다. 다음은 일괄 처리 크기가 1000 인 Amazon SageMaker 선형 학습자 알고리즘을 학습하는 동안 파이프 모드와 파일 모드 간의 전체 교육 작업 실행 시간과 모델 교육 시간을 비교 한 것입니다.

 

 

보시다시피, CSV 데이터셋으로 파이프 입력 모드를 사용하면 Amazon SageMaker가 지원하는 몇 가지 인스턴스 유형에서 모델을 최대 40 %까지 교육 시간을 단축 할 수 있습니다.

 

두 번째 데이터셋인 1GB CSV 파일에는 400 개의 레코드만 있지만 각 레코드에는 100,000 개의 쉼표로 구분된 단일 고정 부동 소수점 값이 있습니다. 저희는 이전 교육의 벤치마크를 배치 사이즈 10으로 하여 반복했습니다.

 

 

이번에는 파이프 모드를 사용하면 성능이 향상되고 모델을 학습하는 데 소요시간은 75 % 단축됩니다.

 

두 실험 모두 파이프 입력 모드를 사용하면 성능이 크게 향상된다는 것을 분명히 알 수 있습니다. 교육 작업을 통해 교육 인스턴스에 데이터셋을 다운로드 할 때 발생하는 시작 지연을 피할 수 있으며 훨씬 더 높은 데이터 읽기 처리량을 가질 수 있습니다.

 

Amazon SageMaker 시작하기

샘플 노트북을 사용하여 Amazon SageMaker를 쉽게 시작할 수 있습니다. 또한 개발자 가이드에서 추가 리소스를 확인하고 새로운 출시 발표에 대한 토론 포럼에 가입할 수 있습니다.

 

원문 URL: https://aws.amazon.com/ko/blogs/machine-learning/now-use-pipe-mode-with-csv-datasets-for-faster-training-on-amazon-sagemaker-built-in-algorithms/

** 메가존클라우드 TechBlog는 AWS BLOG 영문 게재글중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.