メニュー
Amazon Elastic Compute Cloud
Linux インスタンス用ユーザーガイド

パブリックデータセットの使用

Amazon Web Servicesは、AWS クラウドベースのアプリケーションとシームレスに統合可能な、パブリックデータセットのリポジトリを提供します。Amazon が保管するこのデータセットは、コミュニティが無料で利用できます。AWS のすべてのサービスがそうであるように、お支払いいただくのはお客様のアプリケーションのために使用したコンピュートおよびストレージの分だけです。

パブリックデータセットの概念

ヒト遺伝子のマッピングや、米国国勢調査データなどの膨大なデータセットでは、その位置特定、ダウンロード、カスタマイズ、分析のために、従来は何時間も、また何日もかかっていました。現在では、EC2 インスタンスから誰もがこれらのデータセットにアクセスし、数分以内にデータの計算を開始することができます。また、AWS エコシステム全体を活用し、他の AWS ユーザーと簡単に共同作業を行うことができます。たとえば、ツールやアプリケーションを用いて、あらかじめ構築されたサーバー画像を作成または使用し、データセットの分析を行うことができます。Amazon EC2 のような費用対効果の高いサービスで、こうした重要で有益なデータをホスティングすることにより、AWS は様々な分野や業界にまたがる研究者に、さらなる革新性と高速性を可能にするツールを提供したいと考えています。

詳細については、Public Data Sets on AWS Page. ページを参照してください。

使用可能なパブリックデータセット

パブリックデータセットは現在、以下のカテゴリで使用できます。

  • 生物学—ヒトゲノム計画 (GenBank) およびその他のコンテンツが含まれています。

  • 化学—複数バージョンの PubChem およびその他のコンテンツが含まれています。

  • 経済学—国勢調査データ、労働統計、運輸統計、およびその他のコンテンツが含まれています。

  • 百科事典—複数のソースからの Wikipedia コンテンツおよびその他のコンテンツが含まれています。

パブリックデータセットの検索

パブリックデータセットを使用するには、まずデータセットを見つけて、データセットがホスティングされた形式を判断する必要があります。データセットは、Amazon EBS スナップショットまたは Amazon S3 バケットの 2 種類の有効な形式で使用できます。

To find a public data set and determine its format

  1. Go to the Public Data Sets Page to see a listing of all available public data sets. You can also enter a search phrase on this page to query the available public data set listings.

  2. Click the name of a data set to see its detail page.

  3. On the data set detail page, look for a snapshot ID listing to identify an Amazon EBS formatted data set or an Amazon S3 URL.

スナップショット形式のデータセットは、EC2 インスタンスにアタッチする新しい EBS ボリュームを作成するために使用されます。詳細については、「スナップショットからパブリックデータセットボリュームを作成する」を参照してください。

Amazon S3 形式のデータセットの場合は、AWS SDK または HTTP クエリ API を使用して情報にアクセスするか、または AWS CLI を使用してインスタンスとの間でデータをコピーまたは同期することができます。詳細については、「Amazon S3 と Amazon EC2」を参照してください。

また、Amazon EMR を使用して、パブリックデータセットを分析および使用することもできます。詳細については、「What is Amazon EMR?」を参照してください。

スナップショットからパブリックデータセットボリュームを作成する

スナップショット形式のパブリックデータセットを使用するには、新しいボリュームを作成し、パブリックデータセットのスナップショット ID を指定します。新しいボリュームは、AWS マネジメントコンソールを使用して以下のようにして作成できます。お好みで、-create-volume AWS CLI コマンドを使用することもできます。

To create a public data set volume from a snapshot

  1. Open the Amazon EC2 console.

  2. From the navigation bar, select the region that your data set snapshot is located in.

    重要

    Snapshot IDs are constrained to a single region, and you cannot create a volume from a snapshot that is located in another region. In addition, you can only attach an EBS volume to an instance in the same Availability Zone. For more information, see リソースの場所.

    If you need to create this volume in a different region, you can copy the snapshot to your required region and then restore it to a volume in that region. For more information, see Amazon EBS スナップショットのコピー.

  3. In the navigation pane, click Volumes.

  4. Above the upper pane, click Create Volume.

  5. In the Create Volume dialog box, in the Type list, select 汎用 SSD, プロビジョンド IOPS SSD, or マグネティック. For more information, see Amazon EBS ボリュームの種類.

  6. In the Snapshot field, start typing the ID or description of the snapshot for your data set. Select the snapshot from the list of suggested options.

    注記

    If the snapshot ID you are expecting to see does not appear, you may have a different region selected in the Amazon EC2 console. If the data set you identified in パブリックデータセットの検索 does not specify a region on its detail page, it is likely contained in the us-east-1 米国東部(バージニア北部) region.

  7. In the Size field, enter the size of the volume (in GiB or TiB), or verify the that the default size of the snapshot is adequate.

    注記

    If you specify both a volume size and a snapshot ID, the size must be equal to or greater than the snapshot size. When you select a volume type and a snapshot ID, minimum and maximum sizes for the volume are shown next to the Size list.

  8. For プロビジョンド IOPS SSD volumes, in the IOPS field, enter the maximum number of input/output operations per second (IOPS) that the volume can support.

  9. In the Availability Zone list, select the Availability Zone in which to launch the instance.

    重要

    EBS volumes can only be attached to instances in the same Availability Zone.

  10. Click Yes, Create.

    重要

    If you created a larger volume than the default size for that snapshot (by specifying a size in ステップ 7), you need to extend the file system on the volume to take advantage of the extra space. For more information, see Linux の EBS ボリュームのサイズ、IOPS、またはタイプの変更.

パブリックデータセットボリュームをアタッチしてマウントする

新しいデータセットボリュームを作成したら、データにアクセスするためにこのボリュームを EC2 インスタンスにアタッチする必要があります (このインスタンスも新しいボリュームと同じアベイラビリティーゾーンに存在する必要があります)。詳細については、「インスタンスへの Amazon EBS ボリュームのアタッチ」を参照してください。

ボリュームをインスタンスにアタッチしたら、ボリュームをインスタンスにマウントする必要があります。詳細については、「Amazon EBS ボリュームを使用できるようにする」を参照してください。