メニュー
Amazon Elastic Compute Cloud
Linux インスタンス用ユーザーガイド

パブリックデータセットの使用

Amazon Web Servicesは、AWS クラウドベースのアプリケーションとシームレスに統合可能な、パブリックデータセットのリポジトリを提供します。Amazon が保管するこのデータセットは、コミュニティが無料で利用できます。AWS のすべてのサービスがそうであるように、お支払いいただくのはお客様のアプリケーションのために使用したコンピュートおよびストレージの分だけです。

パブリックデータセットの概念

ヒト遺伝子のマッピングや、米国国勢調査データなどの膨大なデータセットでは、その位置特定、ダウンロード、カスタマイズ、分析のために、従来は何時間も、また何日もかかっていました。現在では、EC2 インスタンスから誰もがこれらのデータセットにアクセスし、数分以内にデータの計算を開始することができます。また、AWS エコシステム全体を活用し、他の AWS ユーザーと簡単に共同作業を行うことができます。たとえば、ツールやアプリケーションを用いて、あらかじめ構築されたサーバー画像を作成または使用し、データセットの分析を行うことができます。Amazon EC2 のような費用対効果の高いサービスで、こうした重要で有益なデータをホスティングすることにより、AWS は様々な分野や業界にまたがる研究者に、さらなる革新性と高速性を可能にするツールを提供したいと考えています。

詳細については、Public Data Sets on AWS Page. ページを参照してください。

使用可能なパブリックデータセット

パブリックデータセットは現在、以下のカテゴリで使用できます。

  • 生物学—ヒトゲノム計画 (GenBank) およびその他のコンテンツが含まれています。

  • 化学—複数バージョンの PubChem およびその他のコンテンツが含まれています。

  • 経済学—国勢調査データ、労働統計、運輸統計、およびその他のコンテンツが含まれています。

  • 百科事典—複数のソースからの Wikipedia コンテンツおよびその他のコンテンツが含まれています。

パブリックデータセットの検索

パブリックデータセットを使用するには、まずデータセットを見つけて、データセットがホスティングされた形式を判断する必要があります。データセットは、Amazon EBS スナップショットまたは Amazon S3 バケットの 2 種類の有効な形式で使用できます。

パブリックデータセットを見つけてその形式を判断するには

  1. Public Data Sets ページに移動して、使用可能なすべてのパブリックデータセットのリストを表示します。また、このページで検索フレーズを入力して、使用可能なパブリックデータセットのリストに対してクエリを実行することもできます。

  2. データセットの名前をクリックして、その詳細ページを表示します。

  3. データセットの詳細ページでスナップショット ID リストを探して、Amazon EBS フォーマットデータセットまたは Amazon S3 URL を特定します。

スナップショット形式のデータセットは、EC2 インスタンスにアタッチする新しい EBS ボリュームを作成するために使用されます。詳細については、「スナップショットからパブリックデータセットボリュームを作成する」を参照してください。

Amazon S3 形式のデータセットの場合は、AWS SDK または HTTP クエリ API を使用して情報にアクセスするか、または AWS CLI を使用してインスタンスとの間でデータをコピーまたは同期することができます。詳細については、「Amazon S3 と Amazon EC2」を参照してください。

また、Amazon EMR を使用して、パブリックデータセットを分析および使用することもできます。詳細については、「What is Amazon EMR?」を参照してください。

スナップショットからパブリックデータセットボリュームを作成する

スナップショット形式のパブリックデータセットを使用するには、新しいボリュームを作成し、パブリックデータセットのスナップショット ID を指定します。新しいボリュームは、AWS マネジメントコンソールを使用して以下のようにして作成できます。お好みで、-create-volume AWS CLI コマンドを使用することもできます。

スナップショットからパブリックデータセットボリュームを作成するには

  1. Amazon EC2 コンソールを開きます。

  2. ナビゲーションバーで、データセットスナップショットが存在するリージョンを選択します。

    重要

    スナップショット ID は単一のリージョンに制限されており、別のリージョンに存在するスナップショットからボリュームを作成することはできません。また、EBS ボリュームは、同じアベイラビリティーゾーン内のインスタンスのみにアタッチできます。詳細については、「リソースの場所」を参照してください。

    別のリージョンでこのボリュームを作成する必要がある場合は、スナップショットをご希望のリージョンにコピーしてから、そのリージョン内のボリュームに復元します。詳細については、「Amazon EBS スナップショットのコピー」を参照してください。

  3. ナビゲーションペインの [Volumes] をクリックします。

  4. 上段のペインの上で、[Create Volume] をクリックします。

  5. [Create Volume] ダイアログボックスの [Type] リストで、[汎用 SSD]、[プロビジョンド IOPS SSD]、または [マグネティック] を選択します。詳細については、「Amazon EBS ボリュームの種類」を参照してください。

  6. [Snapshot] フィールド、データセットに対してスナップショットの ID または説明を入力します。推奨されるオプションのリストから、スナップショットを選択します。

    注記

    表示されるはずのスナップショット ID が表示されない場合は、Amazon EC2 コンソールで別のリージョンが選択されている可能性があります。パブリックデータセットの検索 で特定したデータセットが詳細ページでリージョンを指定していない場合は、us-east-1 米国東部(バージニア北部) リージョンに含まれていると考えられます。

  7. [Size] フィールドに、ボリュームのサイズ (GiB または TiB) を入力するか、またはスナップショットのデフォルトのサイズが適切であるかを確認します。

    注記

    ボリュームサイズとスナップショット ID の両方を指定した場合は、スナップショットサイズ以上のサイズにする必要があります。ボリュームの種類とスナップショット ID を選択すると、ボリュームの最小サイズと最大サイズが [Size] リストの横に表示されます。

  8. プロビジョンド IOPS SSD ボリュームの場合、[IOPS] フィールドに、ボリュームがサポートできる IOPS (1 秒あたりの入力/出力オペレーションの数) の最大数を入力します。

  9. [Availability Zone] リストで、インスタンスを起動するアベイラビリティーゾーンを選択します。

    重要

    EBS ボリュームをアタッチできるインスタンスは、同じアベイラビリティーゾーンに存在するものに限られます。

  10. [Yes, Create] をクリックします。

    重要

    (ステップ 7 でサイズを指定して) そのスナップショットのデフォルトサイズよりも大きいボリュームを作成した場合、追加のスペースを活用するには、ボリュームのファイルシステムを拡張する必要があります。詳細については、「Linux の EBS ボリュームのサイズ、IOPS、またはタイプの変更」を参照してください。

パブリックデータセットボリュームをアタッチしてマウントする

新しいデータセットボリュームを作成したら、データにアクセスするためにこのボリュームを EC2 インスタンスにアタッチする必要があります (このインスタンスも新しいボリュームと同じアベイラビリティーゾーンに存在する必要があります)。詳細については、「インスタンスへの Amazon EBS ボリュームのアタッチ」を参照してください。

ボリュームをインスタンスにアタッチしたら、ボリュームをインスタンスにマウントする必要があります。詳細については、「Amazon EBS ボリュームを使用できるようにする」を参照してください。