BLOG

연구 분야에서 AWS 서비스를 활용하는 5가지 방법
작성일: 2020-07-08

연구원들은 연구에 필요한 컴퓨터 리소스보다는 연구 수행에 더욱 관심을 가지기 마련입니다. 원격 업무가 증가함에 따라 원격으로 연구를 계속 진행하는 방법을 고민하셨을 것으로 생각됩니다. 클라우드 및 Amazon Web Services (AWS)를 통해 연구 시간을 단축할 수 있는 다섯 가지 가능한 방법에 대해 말씀 드리겠습니다.

 

 

  1. 필요한 워크 스테이션 확보하기

컴퓨터 요구 사항과 연구 방향은 시간이 지남에 따라 바뀌므로 일반적인 그랜트 사이클 내에서 필요한 플랫폼을 예측하기가 어렵습니다. 예를 들어 GPU 가속화 및 머신 러닝은 많은 연구 분야에서 도움이 될 수 있지만 많은 실험실에서는 GPU에 액세스할 수 없습니다.

 

AWS는 Amazon EC2 (Amazon Elastic Compute Cloud) 가상 머신 (또는 인스턴스)을 통해 필요에 따라 다양한 기본 하드웨어 및 소프트웨어로 가상 머신을 시작할 수 있습니다. 즉, 웹 인터페이스를 사용하여 몇 분 안에 완전히 구성된 시스템을 만들 수 있습니다.  과학적인 코드로 대화식 작업에 적합한 저렴한 인스턴스를 시작하고 중지한 다음 여러 코어와 수백 GB의 메모리로 다시 시작하여 응용 프로그램을 실행할 수 있습니다. 또는 Linux에서 다시 컴파일할 수 없는 중요한 응용 프로그램을 실행하려면 Windows 시스템이 필요할 수 있습니다. 모든 Amazon EC2 인스턴스에는 완전한 원격 데스크톱을 제공하는 고성능 원격 디스플레이 프로토콜인 NICE DCV에 대한 액세스가 포함되어 있으므로 친숙한 그래픽 인터페이스 및 시각화 도구를 사용할 수 있습니다.

 

Amazon EC2 인스턴스 시작에 대한 이 빠른 시작 안내서에서 자체 가상 머신을 시작하는 방법에 대해 알아보세요.

 

 

  1. 연구 워크 플로우 공유 및 결과 복제하기

연구의 복제 가능성은 중복 분석을 위해 공유 컴퓨터를 사용할 때 달성하기 어려운 연구의 중요한 요구 사항입니다. NIH (National Institutes of Health)는 엄격한 과학 적용과 결과 복제성을 보장하기 위한 계획이 필요합니다. 또한 검토자는 안전한 곳에 저장된 데이터를 사용하여 업그레이드된 장비로서 졸업한 학생들이 1년 전에 수행한 분석 변경을 요청할 수 있습니다.

 

이전에 워싱턴 대학 (University of Washington) 연구실에서 분석 환경을 동일하게 유지하면서 업그레이드, 버그 수정 및 해당 환경을 변경한 운영 체제 패치 활용에 어려움을 겪은 경험이 있습니다. Amazon EC2 인스턴스 (전체 머신 이미지 및 프로젝트 데이터 포함)는 Amazon Simple Storage Service (Amazon S3) 와 같은 장기 객체 스토리지에 저장한 다음 필요할 때 복원할 수 있습니다. 전체 데이터를 다른 데이터로 워크 플로우를 재현하려는 다른 연구실과 공유할 수 있습니다.

 

 

  1. 데이터 저장 및 공유하기

연구 데이터는 가치가 높으며 새로운 결과를 생성할 때마다 그 양이 증가합니다. 일부 연구 분야에서 계산에 사용되는 데이터는 너무 커서 로컬에 저장하기가 어렵습니다. 때로는 데이터가 전반적으로 혹은 자주 백업되지 않는 경우가 있습니다. 데이터를 복사 없이 공유하기는 힘듭니다.  Amazon S3는 연구 데이터를 저장 및 공유할 수 있는 내구성 있는 방법입니다.

 

AWS Data Exchange에서 데이터를 사용할 수도 있습니다. Allen Institute for Brain Science의 연구와 같이 AWS의 Open Data Registry에서 많은 데이터 세트를 사용할 수 있습니다.

 

이 빠른 시작 안내서에서 S3에서 파일을 저장하고 검색하는 방법을 배웁니다.

 

 

  1. 하루 동안 나만의 슈퍼 컴퓨터 사용하기

자주 사용하는 스케줄러 (예: Slurm, SGE 또는 Torque)를 사용하여 기관의 고성능 컴퓨팅 (HPC) 센터를 사용하여 컴퓨팅 작업을 제출하는 경우 마감일을 앞둔 작업이 대기열에서 기다려야 할 수 있습니다. AWS ParallelCluster를 사용하면 게놈과 같이 독립적인 대규모 워크로드를 실행하는 클러스터를 생성할 수 있습니다.

 

시드니 대학은 RONIN 과 함께 이 기능을 사용하여 태즈 매니아 데빌과 멸종 위기에 처한 다른 종의 게놈을 시퀀싱하여 보존 론자들의 생존을 보장했습니다. Carolyn Hogg 박사가 이끄는 팀은 AWS에서 6주 동안 18개월의 작업을 완료할 수 있었고 국가 슈퍼 컴퓨팅 리소스를 기다리는 4주 이상의 대기열 대기 시간을 절약할 수 있었습니다.

 

미국 해군 연구소 (National Research Laboratory)에서 대기 모델링 애플리케이션으로 수행한 것처럼 MPI를 사용하는 보다 전통적이고 밀접하게 결합된 HPC 애플리케이션에 AWS ParallelCluster를 사용할 수도 있습니다. AWS에서의 성능은 Cray 슈퍼 컴퓨터와 비슷한 확장성을 가집니다.

 

AWS에서 자체 슈퍼 컴퓨터를 시작하는 방법에 대해 알아보세요.

 

 

  1. 분석, 인공 지능 (AI) 및 기계 학습 (ML)을 위한 최신 도구에 액세스하기

클라우드를 통해 연구원은 최신 컴퓨팅 아키텍처에 액세스하여 분석, AI 및 ML의 혁신과 같은 과학 발전에 발을 맞출 수 있습니다. AWS에는 데이터베이스(예: Amazon Athena) 를 관리하고 여러 소스의 데이터를 쿼리할 수 있는 데이터 레이크(예: AWS Lake Formation) 로 풀링하기 위한 도구가 준비되어 있습니다. 또한 연구 데이터를 수집하고 구성하기 위해 연구, 전자 및 데이터 캡처 (REDCap) 환경을 신속하게 설정할 수 있습니다.

 

생의학 연구에서 분석 도구를 사용하면 게놈 데이터, 임상 데이터 및 행동 데이터를 결합하여 NIH STRIDES 이니셔티브에서 계획한 것과 같은 정밀 의학 연구를 지원할 수 있습니다.

 

또한 연구원들은 GPU 가속을 위한 최신 CUDA 드라이버로 사전 구성된 Amazon Machine Images에 액세스하고 PyTorch 및 TensorFlow, Amazon ComprehendAmazon Forecast 와 같은 시계열 분석, 컴퓨터 비전 및 권장 사항과 같은 인기 있는 ML 프레임 워크에서와 같이 텍스트 분석을 위한 고급 서비스에 이르기까지 광범위한 AI 및 ML 서비스를 활용할 수 있습니다.  Jupyter 노트북을 시작하여 Amazon SageMaker 와 같은 ML 모델 교육을 위한 리소스에 액세스할 수도 있습니다. 이러한 높은 수준의 서비스는 완벽하게 관리되기 때문에 특히 유용합니다. 즉, 내결함성이 있고 가용성이 높은 확장 가능한 방식으로 기본 컴퓨팅 리소스를 처리할 수 ​​있습니다.

 

자폐증 및 뇌 개발을 위한 듀크 센터의 소장 Geraldine Dawson과 전기 및 컴퓨터 공학 교수 Guillermo Sapiro가 이끄는 듀크 대학교의 학제 과학자 팀은 AWS의 ML 및 컴퓨터 비전을 활용하여 자폐증에 대한 응용 프로그램 기반 초기 자폐증 진단 도구로 사용되었습니다. 자폐증이 있는 어린이는 사회적 신호에 주의를 기울이지 않기 때문에 연구자들은 다른 사회적 및 비사회적 자극을 가진 비디오를 보는 어린이의 코딩된 얼굴 움직임을 사용하여 ML 모델을 훈련했습니다. 그들의 행동은 일부 행동에 대해 거의 90% 정확했으며, 설문지의 정확도는 50% 이상 개선되었습니다.

 

AI 및 분석 도구를 시작하는 방법에 대해 알아보세요.

 

 

원문URL: https://aws.amazon.com/ko/blogs/publicsector/five-ways-use-aws-research-starting-now/

** 메가존 클라우드 TechBlog는 AWS BLOG 영문 게재 글 중에서 한국 사용자들에게 유용한 정보 및 콘텐츠를 우선적으로 번역하여 내부 엔지니어 검수를 받아서, 정기적으로 게재하고 있습니다. 추가로 번역 및 게재를 희망하는 글에 대해서 관리자에게 메일 또는 SNS 페이지에 댓글을 남겨주시면, 우선적으로 번역해서 전달해드리도록 하겠습니다.