BLOG

[ML] Default Lifecycle Configuration으로 Amazon SageMaker Studio에서 Amazon SageMaker Data Wrangler 사용하기
작성일: 2022-07-26

Amazon SageMaker Studio 에서 도메인 또는 사용자 프로필에 대한 기본 수명 주기 구성을 사용하고, 데이터 준비를 위해 Amazon SageMaker Data Wrangler를 사용하고 계신가요? 이번 포스팅에서는 Data Wrangler 흐름을 만들고 기본 수명 주기 구성이 있는 Studio 환경에서 데이터 준비에 사용하는 방법을 함께 알아보려고 합니다.

 

Data Wrangler는 데이터 과학자와 엔지니어가 시각적 인터페이스를 통해 기계 학습(ML) 애플리케이션을 위한 데이터를 더 빠르게 준비할 수 있도록 하는 Amazon SageMaker 의 기능입니다. 데이터 준비는 ML 수명 주기의 중요한 단계이며 Data Wrangler는 시각적인 로우 코드 환경에서 ML용 데이터를 가져오고, 탐색∙변환∙기능화∙처리까지 담당하는 엔드 투 엔드 솔루션을 제공합니다. Amazon Simple Storage Service (Amazon S3), Amazon Athena , Amazon Redshift 및 AWS Lake Formation 과 같은 AWS 구성 요소 와 Snowflake 및 DataBricks DeltaLake와 같은 외부 소스에 쉽고 빠르게 연결할 수 있습니다. Data Wrangler는 CSV, JSON, ORC 및 Parquet과 같은 표준 데이터 유형을 지원합니다.

 

Studio 앱은 Studio의 시각적 인터페이스, 코드 작성 및 실행 경험을 가능하게 하는 대화형 응용 프로그램입니다. 앱 유형은 Jupyter 서버 또는 커널 게이트웨이일 수 있습니다.

 

  • Jupyter 서버 – Studio용 시각적 인터페이스에 대한 액세스를 활성화합니다. Studio의 모든 사용자는 자신의 Jupyter 서버 앱을 받습니다.
  • 커널 게이트웨이 – Studio 노트북 및 터미널에 대한 코드 실행 환경 및 커널에 대한 액세스를 활성화합니다. 자세한 내용은 Jupyter 커널 게이트웨이를 참고해주세요.

 

수명 주기 구성 (LCC)은 JupyterLab 확장 설치, 데이터 세트 사전 로드, 소스 코드 리포지토리 설정과 같은 Studio 환경에 대한 사용자 지정을 자동화하는 셸 스크립트입니다. LCC 스크립트는 새 Studio 노트북 시작과 같은 Studio 수명 주기 이벤트에 의해 트리거됩니다. 프로그래밍 방식으로 수명 주기 구성을 도메인 또는 사용자 프로필의 기본값으로 설정하려면 새 리소스를 생성하거나 기존 리소스를 업데이트하면 됩니다. 수명 주기 구성을 기본값으로 연결하려면 먼저 수명 주기 구성 생성 및 연결의 단계에 따라 수명 주기 구성을 생성해야 합니다.

 

참고로 도메인 수준에서 설정된 기본 수명 주기 구성은 모든 사용자에게 귀속되는 반면 사용자 수준에서 설정된 기본 수명 주기 구성은 특정 사용자로 범위가 지정됩니다. 도메인 수준 및 사용자 프로필 수준 수명 주기 구성을 동시에 적용하는 경우 도메인 수준에서 적용되는 수명 주기 구성에 관계없이 사용자 프로필 수준 수명 주기 구성이 우선적으로 적용되며 애플리케이션에 적용됩니다. 더욱 자세한 내용은 기본 수명 주기 구성 설정에서 확인해 보세요.

 

Data Wrangler는 기본 커널 게이트웨이 수명 주기 구성을 허용하지만 기본 커널 게이트웨이 수명 주기 구성에 정의된 일부 명령은 Data Wrangler에 적용할 수 없으므로 Data Wrangler가 시작되지 않을 수 있습니다. 다음 스크린샷은 Data Wrangler 흐름을 시작할 때 나타날 수 있는 오류 메시지의 예를 보여줍니다. 이는 기본 수명 주기 구성에서만 발생할 수 있으며 수명 주기 구성에서는 발생할 수 없습니다.

 

 

 

 

솔루션 개요

 

 

Studio에서 기본 수명 주기 구성을 사용하는 분들은 이번 포스팅을 따라하면서 수명 주기 구성 스크립트 내에서 제공된 코드 블록을 사용하여 오류 없이 Data Wrangler 앱을 시작할 수 있습니다.

 

 

기본 수명 주기 구성 설정

 

기본 수명 주기 구성을 설정하려면 적절한 앱 유형의 DefaultResourceSpec에 추가해야 합니다. 수명 주기 구성의 동작은 Jupyter 서버 또는 커널 게이트웨이 앱의 DefaultResourceSpec에 추가되었는지 여부에 따라 다릅니다.

 

  • Jupyter 서버 앱 – Jupyter 서버 앱의 DefaultResourceSpec에 추가하면 사용자가 Studio에 처음 로그인하거나 Studio를 다시 시작할 때 기본 수명 주기 구성 스크립트가 자동으로 실행됩니다. 이를 사용하여 노트북 확장 설치 또는 GitHub 리포지토리 설정과 같은 Studio 개발자 환경에 대한 일회성 설정 작업을 자동화할 수 있습니다. 이에 대한 예시는 수명 주기 구성을 사용하여 Amazon SageMaker Studio 사용자 지정에서 확인할 수 있습니다.
  • 커널 게이트웨이 앱 – 커널 게이트웨이 앱의 DefaultResourceSpec에 추가되면 Studio는 기본적으로 Studio 시작 관리자에서 수명 주기 구성 스크립트를 선택합니다. 기본 스크립트를 사용하여 노트북 또는 터미널을 시작하거나 수명 주기 구성 목록에서 다른 것을 선택할 수 있습니다.

 

Studio 시작 관리자에 표시된 목록에서 다른 스크립트를 선택하지 않으면 DefaultResourceSpec에 지정된 기본 커널 게이트웨이 수명 주기 구성은 Studio 도메인의 모든 커널 게이트웨이 이미지에 적용됩니다.

Studio의 수명 주기 구성으로 작업할 때 수명 주기 구성을 생성하고 이를 Studio 도메인 또는 사용자 프로필에 연결합니다. 그런 다음 Jupyter 서버 또는 커널 게이트웨이 애플리케이션을 시작하여 수명 주기 구성을 사용할 수 있습니다.

다음 표에는 기본 수명 주기 구성으로 Data Wrangler 애플리케이션을 시작할 때 발생할 수 있는 이러한 오류가 요약되어 있습니다.

 

 

Studio 및 Data Wrangler(커널 게이트웨이 앱)와 연결된 기본 수명 주기 구성을 사용하는 경우 커널 게이트웨이 앱 오류가 발생할 수 있습니다. 오늘 포스팅에서는 커널 게이트웨이 앱 오류가 발생하지 않도록 Data Wrangler 애플리케이션에서 실행 중인 명령을 제외하도록 기본 수명 주기 구성을 올바르게 설정하는 방법을 알아보겠습니다.

 

Jupyter 서버가 시작될 때 사용자의 홈 폴더 아래에 있는 Git 저장소를 자동으로 체크아웃하는 기본 수명 주기 구성으로 git-clone-repo 스크립트를 설치하려 한다고 가정해 보겠습니다. 이 경우 수명 주기 구성(Studio 도메인, 사용자 프로필 또는 응용 프로그램 수준)을 적용하는 각 시나리오를 살펴보겠습니다.

 

 

Studio 도메인 또는 사용자 프로필 수준에서 수명 주기 구성 적용

 

Studio 도메인 또는 사용자 프로필 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용하려면 이 섹션의 단계를 완료해야 합니다. 사용자 프로필 수준에 대한 지침으로 시작해보겠습니다.

수명 주기 구성 스크립트에 Data Wrangler Kernel Gateway 앱을 체크하고 스킵하는 다음 코드 블록을 포함해야 합니다.

 

Bash

#!/bin/bash

set -eux

STATUS=$(

python3 -c “import sagemaker_dataprep”

echo $?

)

if [ “$STATUS” -eq 0 ]; then

echo ‘Instance is of Type Data Wrangler’

else

echo ‘Instance is not of Type Data Wrangler’

<remainder of LCC here within in else block – this contains some pip install, etc>

fi

 

예를 들어 다음 스크립트를 원본으로 사용하겠습니다(리포지토리를 복제할 폴더가 /root from /home/sagemaker-user로 변경됨).

 

Bash

# Clones a git repository into the user’s home folder

#!/bin/bash

 

set -eux

 

# Replace this with the URL of your git repository

export REPOSITORY_URL=”https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git”

 

git -C /root clone $REPOSITORY_URL

 

새로 수정된 스크립트는 다음과 같습니다.

 

Bash

#!/bin/bash

set -eux

STATUS=$(

python3 -c “import sagemaker_dataprep”

echo $?

)

if [ “$STATUS” -eq 0 ]; then

echo ‘Instance is of Type Data Wrangler’

else

echo ‘Instance is not of Type Data Wrangler’

 

# Replace this with the URL of your git repository

export REPOSITORY_URL=”https://github.com/aws-samples/sagemaker-studio-lifecycle-config-examples.git”

 

git -C /root clone $REPOSITORY_URL

 

fi

 

이 스크립트를 git_command_test.sh로 저장할 수 있습니다.

 

이제 터미널 또는 명령 프롬프트에서 일련의 명령을 실행합니다. AWS와 상호 작용하려면 AWS 명령줄 인터페이스 (AWS CLI)를 구성해야 합니다. AWS CLI를 설정하지 않은 경우 AWS CLI 구성을 참조하십시오.

 

1.git_command_test.sh파일을 Base64 형식으로 변환합니다. 이 요구 사항은 공백 및 줄 바꿈 인코딩으로 인한 오류를 방지합니다.

LCC_GIT=openssl base64 -A -in /Users/abcde/Downloads/git_command_test.sh

 

2.Studio 수명 주기 구성을 만듭니다. 다음 명령은 연결된 커널 게이트웨이 앱을 시작할 때 실행되는 수명 주기 구성을 만듭니다.

aws sagemaker create-studio-lifecycle-config —region us-east-2 —studio-lifecycle-config-name lcc-git —studio-lifecycle-config-content $LCC_GIT —studio-lifecycle-config-app-type KernelGateway

 

3.다음 API 호출을 사용하여 연결된 수명 주기 구성으로 새 사용자 프로필을 만듭니다.

aws sagemaker create-user-profile –domain-id d-vqc14vvvvvvv \

–user-profile-name test \

–region us-east-2 \

–user-settings ‘{

“KernelGatewayAppSettings”: {

“LifecycleConfigArns” : [“arn:aws:sagemaker:us-east-2:000000000000:studio-lifecycle-config/lcc-git”],

“DefaultResourceSpec”: {

“InstanceType”: “ml.m5.xlarge”,

“LifecycleConfigArn”: “arn:aws:sagemaker:us-east-2:00000000000:studio-lifecycle-config/lcc-git”

}

}

}’

 

또는 Studio 도메인을 생성하여 도메인 수준에서 수명 주기 구성을 연결하거나 사용자 프로필 또는 도메인을 업데이트하려는 경우 기본 수명 주기 구성 설정의 단계를 따를 수 있습니다.

 

4.이제 SageMaker 제어판에서 Studio 앱을 실행할 수 있습니다.

 

 

5.Studio 환경의 File 메뉴에서 New 및 Data Wrangler Flow 를 선택합니다. 새 Data Wrangler 흐름은 문제없이 열립니다.

 

 

6.Git 클론의 유효성을 검사하려면 Studio에서 새 런처를 열 수 있습니다.

 

 

7.노트북 및 컴퓨팅 리소스에서 Python 3 노트북 및 Data Science SageMaker 이미지를 선택하여 스크립트를 기본 수명 주기 구성 스크립트로 시작합니다.

 

 

다음 스크린샷의 /root에서 복제된 Git을 볼 수 있습니다 .

 

 

사용자 프로필 수준에서 기본 커널 수명 주기 구성을 성공적으로 적용하고 Data Wrangler 흐름을 만들었습니다. Studio 도메인 수준에서 구성하려면 사용자 프로필을 생성하는 대신 create-domain 호출에서 수명 주기 구성의 ARN을 전달하면 됩니다.

 

 

애플리케이션 수준에서 수명 주기 구성 적용

 

 

애플리케이션 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용하면 Data Wrangler가 애플리케이션 수준에서 적용된 수명 주기 구성을 건너뛰기 때문에 문제가 없습니다.

 

 

결론

 

오늘 포스팅에서는 데이터 준비 및 시각화 요구 사항에 Data Wrangler를 사용할 때 Studio의 기본 수명 주기 구성을 적절하게 구성하는 방법을 알아보았습니다.

 

요약하자면 Studio의 기본 수명 주기 구성을 사용하여 Studio 환경에 대한 사용자 지정을 자동화하고 데이터 준비를 위해 Data Wrangler를 사용해야 하는 경우 적절한 코드를 사용하여 사용자 프로필 또는 Studio 도메인 수준에서 기본 커널 게이트웨이 수명 주기 구성을 적용할 수 있습니다. 기본 수명 주기 구성이 이를 확인하고 Data Wrangler Kernel Gateway 앱을 건너뛸 수 있도록 수명 주기 구성에 포함된 블록입니다.

 

더욱 자세한 내용은 다음 리소스를 참고해주세요.

 

 

 

원문URL: https://aws.amazon.com/ko/blogs/machine-learning/use-amazon-sagemaker-data-wrangler-in-amazon-sagemaker-studio-with-a-default-lifecycle-configuration/

메가존클라우드 TechBlog는 AWS BLOG 영문 게재 글이나 관련 기사 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.