메뉴
Amazon Elastic Compute Cloud
User Guide for Linux Instances

퍼블릭 데이터 세트 사용

Amazon Web Services에서는 AWS 클라우드 기반 애플리케이션에 완벽하게 통합될 수 있는 퍼블릭 데이터 세트 리포지토리를 제공합니다. Amazon에서는 데이터 세트를 커뮤니티에 무료로 저장하고, 모든 AWS 서비스와 마찬가지로 애플리케이션에 사용된 컴퓨팅 및 스토리지에 대해서만 지불합니다.

퍼블릭 데이터 세트 개념

이전에는 인간 게놈 및 미국 인구조사 데이터 매핑 같은 대규모 데이터 세트를 검색하고, 다운로드하고, 가공하고, 분석하려면 짧아도 몇 시간, 길면 며칠까지 걸렸습니다. 이제 모든 사용자가 EC2 인스턴스에서 이러한 데이터 세트에 액세스하고 몇 분 이내에 데이터에 대한 컴퓨팅을 시작할 수 있습니다. 전체 AWS 에코시스템을 활용해 다른 AWS 사용자와 쉽게 협업할 수도 있습니다. 예를 들어, 도구와 애플리케이션으로 서버 이미지를 제작하거나 이미 구축되어 있는 서버 이미지를 사용하여 데이터 세트를 분석할 수 있습니다. AWS는 이렇게 중요하고 유용한 데이터를 Amazon EC2와 같은 비용 효율적인 서비스로 호스팅함으로써 다양한 분야의 연구자들과 기업들이 더 빠르게 혁신을 이룰 수 있도록 하는 도구를 제공합니다.

자세한 내용은 Public Data Sets on AWS Page 단원을 참조하십시오.

사용 가능한 퍼블릭 데이터 세트

현재 다음과 같은 범주의 퍼블릭 데이터 세트를 사용할 수 있습니다.

  • 생물학 - 인간 게놈 프로젝트, GenBank 및 기타 콘텐츠를 포함합니다.

  • 화학 - 다양한 버전의 PubChem 및 기타 콘텐츠를 포함합니다.

  • 경제학 - 인구 조사 데이터, 노동 통계, 교통 통계 및 기타 콘텐츠를 포함합니다.

  • 백과사전 - 다양한 출처의 Wikipedia 콘텐츠와 기타 콘텐츠를 포함합니다.

퍼블릭 데이터 세트 찾기

퍼블릭 데이터 세트를 사용하려면 먼저 데이터 세트를 찾은 다음 해당 데이터 세트를 호스팅할 형식을 결정해야 합니다. 데이터 세트는 Amazon EBS 스냅샷 또는 Amazon S3 버킷의 두 가지 형식으로 사용할 수 있습니다.

퍼블릭 데이터 세트를 찾고 해당 형식을 결정하려면

  1. Public Data Sets Page로 이동하여 모든 사용 가능한 퍼블릭 데이터 세트 목록을 확인합니다. 이 페이지에 검색 문구를 입력하여 사용 가능한 퍼블릭 데이터 세트 목록을 쿼리할 수도 있습니다.

  2. 데이터 세트 이름을 클릭하여 해당 정보 페이지를 표시합니다.

  3. 데이터 세트 정보 페이지에서 스냅샷 ID 목록을 찾아 Amazon EBS 형식의 데이터 세트 또는 Amazon S3 URL을 식별합니다.

스냅샷 형식의 데이터 세트는 EC2 인스턴스에 연결할 새 EBS 볼륨을 생성하는 데 사용됩니다. 자세한 내용은 스냅샷에서 퍼블릭 데이터 세트 볼륨 생성 단원을 참조하십시오.

Amazon S3 형식의 데이터 세트의 경우 AWS SDK 또는 HTTP 쿼리 API를 사용하여 정보에 액세스하거나 AWS CLI를 사용하여 인스턴스 간에 데이터를 복사하거나 동기화할 수 있습니다. 자세한 내용은 Amazon S3 및 Amazon EC2 단원을 참조하십시오.

Amazon EMR을 사용하여 퍼블릭 데이터 세트를 분석 및 작업할 수도 있습니다. 자세한 내용은 What is Amazon EMR?을 참조하십시오.

스냅샷에서 퍼블릭 데이터 세트 볼륨 생성

스냅샷 형식의 공개 데이터 세트를 사용하려면 공개 데이터 세트의 스냅샷 ID를 지정하여 새 볼륨을 생성합니다. 다음과 같이 AWS Management Console을 사용하여 새 볼륨을 생성할 수 있습니다. 원하는 경우 -create-volume AWS CLI 명령을 대신 사용할 수 있습니다.

스냅샷에서 퍼블릭 데이터 세트 볼륨을 생성하려면

  1. https://console.aws.amazon.com/ec2/에서 Amazon EC2 콘솔을 엽니다.

  2. 탐색 모음에서 데이터 세트 스냅샷이 있는 리전을 선택합니다.

    이 볼륨을 다른 리전에 생성해야 하는 경우, 해당 리전에 스냅샷을 복사한 다음 해당 리전에서 볼륨을 생성하는 데 사용할 수 있습니다. 자세한 내용은 Amazon EBS 스냅샷 복사 단원을 참조하십시오.

  3. 탐색 창에서 [ELASTIC BLOCK STORE], [Volumes]를 선택합니다.

  4. [Create Volume]을 선택합니다.

  5. [Volume Type]에서 볼륨 유형을 선택합니다. 자세한 내용은 Amazon EBS 볼륨 유형 단원을 참조하십시오.

  6. [Snapshot]에서 데이터 세트가 있는 스냅샷의 ID 또는 설명을 입력한 다음 목록에서 선택합니다.

    원하는 스냅샷이 표시되지 않는 경우 해당 스냅샷이 있는 리전을 선택하지 않았을 수 있습니다. 퍼블릭 데이터 세트 찾기에서 식별된 데이터 세트의 세부 정보 페이지에 리전이 지정되어 있지 않은 경우 데이터 세트가 미국 동부(버지니아 북부) 리전에 포함되어 있을 가능성이 높습니다.us-east-1

  7. [Size (GiB)]에서 볼륨의 크기를 입력하거나 스냅샷의 기본 크기가 적절한지 확인합니다.

    참고

    볼륨 크기와 스냅샷을 모두 지정한 경우 크기는 스냅샷 크기보다 크거나 같아야 합니다. 볼륨 유형과 스냅샷을 선택하면 볼륨의 최소 및 최대 크기가 [Size] 옆에 표시됩니다.

  8. 프로비저닝된 IOPS SSD 볼륨의 경우 [IOPS]에서 볼륨이 지원해야 하는 최대 IOPS(초당 입/출력 작업) 수를 입력합니다.

  9. [Availability Zone]에서 볼륨을 생성할 가용 영역을 선택합니다. 동일한 가용 영역의 인스턴스에만 EBS 볼륨을 연결할 수 있습니다.

  10. (선택 사항) [Create additional tags]를 선택하여 볼륨에 태그를 추가합니다. 각 태그에 대해 태그 키와 태그 값을 제공합니다.

  11. [Create Volume]을 선택합니다.

퍼블릭 데이터 세트 볼륨 연결 및 마운트

새 데이터 세트 볼륨을 생성한 후 데이터에 액세스하려면 볼륨을 EC2 인스턴스에 연결해야 합니다. 또한 이 인스턴스가 새 볼륨과 동일한 가용 영역에 있어야 합니다. 자세한 내용은 Amazon EBS 볼륨을 인스턴스에 연결 단원을 참조하십시오.

볼륨을 인스턴스에 연결한 후 인스턴스에서 볼륨을 마운트해야 합니다. 자세한 내용은 Amazon EBS 볼륨을 사용할 수 있도록 만들기 단원을 참조하십시오.

볼륨이 스냅샷의 기본 볼륨보다 큰 볼륨의 스냅샷으로 복구된 경우 볼륨의 파일 시스템을 확장하여 추가 공간을 활용할 수 있어야 합니다. 자세한 내용은 Linux에서 EBS 볼륨의 크기, IOPS 또는 유형 수정 단원을 참조하십시오.