の HDFS のロケーションを作成するAWS DataSync - AWS DataSync

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

の HDFS のロケーションを作成するAWS DataSync

場所は、File system (HDFS) のエンドポイントです。 AWS DataSync場所を送信元あるいは送信先として使用することができます。

HDFS クラスターへのアクセス

HDFS クラスターに接続するには、HDFS DataSync クラスターの近くにデプロイしたエージェントを使用します。 DataSync エージェントの詳細については、を参照してくださいAWS DataSyncエージェントの使用。 DataSync エージェントは HDFS クライアントとして機能し、 NameNodes DataNodes クラスター内のおよびと通信します。

タスクを開始すると、 DataSync にクラスター上のファイルとフォルダの場所について照会します。 NameNode HDFS ロケーションがソースとして設定されている場合は、 DataSync DataNodes クラスター内のからファイルとフォルダーのデータを読み取り、データを宛先にコピーします。HDFS ロケーションがデスティネーションとして設定されている場合は、 DataSync DataNodes デスティネーションからクラスタ内のにファイルとフォルダを書き込みます。 DataSync タスクを実行する前に、HDFS クラスターへのエージェント接続を確認します。詳細については、「ストレージシステムへの接続テスト」を参照してください。

認証

HDFS クラスターに接続する場合、簡易認証または Kerberos DataSync 認証をサポートします。簡易認証を使用するには、HDFS クラスターに対する読み書き権限をユーザーのユーザー名に指定します。Kerberos 認証を使用するには、Kerberos 設定ファイル、Kerberos キーテーブル (キータブ) ファイル、および Kerberos プリンシパル名を指定します。Kerberos プリンシパルの認証情報は、指定されたキータブ ファイル にある必要があります。

暗号化

Kerberos 認証を使用する場合、は、 DataSync エージェントと HDFS DataSync クラスター間で送信されるデータの暗号化をサポートします。HDFS クラスターの [保護の品質 (QOP)] 設定を使用し、HDFS の場所の作成時に QOP 設定を指定することにより、データを暗号化します。QOP 設定には、データ転送保護とリモートプロシージャコール (RPC) 保護の設定が含まれます。

DataSync は次の Kerberos 暗号化タイプをサポートしています。

  • des-cbc-crc

  • des-cbc-md4

  • des-cbc-md5

  • des3-cbc-sha1

  • arcfour-hmac

  • arcfour-hmac-exp

  • aes128-cts-hmac-sha1-96

  • aes256-cts-hmac-sha1-96

  • aes128-cts-hmac-sha256-128

  • aes256-cts-hmac-sha384-192

  • camellia128-cts-cmac

  • camellia256-cts-cmac

また、Transparent Data Encryption (TDE) を使用して、暗号化の HDFS クラスターを安心して設定できます。簡易認証を使用する場合、TDE DataSync 対応クラスターへの読み書きを行います。を使用して DataSync TDE 対応クラスターにデータをコピーする場合は、まず HDFS クラスターの暗号化ゾーンを設定します。 DataSync 暗号化ゾーンを作成しません。

HDFS のロケーションを作成する

DataSync転送元または転送先を使用できる場所を設定します。

開始する前に: 次の手順で、エージェントと Hadoop クラスター間のネットワーク接続を確認します。

HDFS の場所を作成するには

  1. https://console.aws.amazon.com/datasync/AWS DataSync でコンソールを開きます。

  2. [Locations (場所)] ページで、[Create location (場所の作成)] を選択します。

  3. ロケーションタイプに、Hadoop Distributed File System(HDFS) を選択します。後でこの場所を送信元あるいは送信先として設定することができます。

  4. [エージェント]で、使用可能なエージェントのリストから、使用するエージェントを 1 つ以上選択します。エージェントは HDFS クラスターに接続し、HDFS DataSync クラスターとの間でデータを安全に転送します。

  5. NameNode、HDFS クラスターのプライマリのドメイン名または IP アドレスを提供します NameNode。

  6. フォルダで、データ転送に使用する HDFS クラスター上のフォルダを入力します。 DataSync 場所がタスクの送信元として使用される場合、 DataSync 指定されたフォルダ内のファイルがコピーされます。場所がタスクの送信先として使用される場合、 DataSync すべてのファイルが指定されたフォルダに書き込みます。

  7. ブロックサイズまたはレプリケーション係数を設定するには、追加設定を選択します。デフォルトのブロックサイズは 128 MiB で、指定するブロックサイズは 512 バイトの倍数でなければなりません。HDFS DataNodes クラスターにデータを転送するときのデフォルトのレプリケーション係数は 3 です。

  8. [Security (セキュリティ)] セクションで、HDFS クラスターで使用する認証タイプを選択します。

    • シンプル —「ユーザー」には、HDFS クラスターで次の権限を持つユーザー名を指定します (ユースケースによって異なります)。

      • この場所をソースの場所として使用する場合は、読み取り権限のみを持つユーザーを指定してください。

      • この場所を宛先場所として使用する場合は、読み取り権限と書き込み権限を持つユーザーを指定してください。

      必要に応じて、HDFS クラスターのキー管理サーバー (KMS) の URI を指定します。

    • Kerberos — HDFS クラスターにアクセスできる Kerberos プリンシパルを指定します。次に、指定した Kerberos KeyTab プリンシパルを含むファイルを指定します。次に、Kerberos 設定ファイルを指定します。最後に、RPC 保護データ転送保護ドロップダウンリストで転送中の暗号化の種類を指定します。

  9. (オプション) タグは、場所の管理、フィルタリング、検索に役立つキーバリューペアです。タグの追加はオプションです。リソースの命名にタグを使用することをお勧めします。

  10. [ロケーションを作成] を選択します。

サポートされない HDFS 機能

HDFS の次の機能は、現在サポートされません DataSync。

  • Kerberos 認証を使用する場合の Transparent Data Encryption (TDE)

  • 複数の設定 NameNodes

  • Hadoop HDFS over HTTP (httpFS)

  • POSIX アクセスコントロールリスト (ACL)

  • HDFS 拡張属性 (xattrs)