2023 年 12 月 7 日より、バージョン 1 DataSync のエージェントは廃止されます。 DataSync コンソールの [エージェント] ページをチェックして、影響を受けるエージェントがいないか確認してください。その場合は、データ転送やストレージ検出の中断を避けるため、その前にそれらのエージェントを交換してください。さらにサポートが必要な場合は、お問い合わせくださいAWS Support
翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
AWS DataSyncHDFS による転送の設定
Hadoop 分散ファイルシステム (HDFS) との間でデータを転送するには、転送場所を作成する必要があります。AWS DataSync DataSync この場所をデータ転送のソースまたは宛先として使用できます。
HDFS クラスターへのアクセス
HDFS クラスターに接続するには、HDFS DataSync クラスターの近くにデプロイするエージェントを使用します。 DataSync エージェントの詳細については、「」を参照してください。AWS DataSyncエージェントとの連携 DataSync エージェントは HDFS クライアントとして機能し、 NameNodes DataNodes クラスター内のおよびとととととと通信します。
タスクを開始すると、 DataSync NameNode クラスター上のファイルとフォルダーの場所をに問い合わせます。HDFS の場所がソースとして設定されている場合は、 DataSync DataNodes クラスター内のファイルとフォルダーのデータを読み取り、データを宛先にコピーします。HDFS の場所が宛先として設定されている場合は、 DataSync DataNodes 宛先からクラスター内のにファイルとフォルダーを書き込みます。 DataSync タスクを実行する前に、HDFS クラスターへのエージェント接続を確認してください。詳細については、「エージェントとストレージの接続をテストします。」を参照してください。
認証
HDFS クラスターに接続する場合、簡易認証または Kerberos DataSync 認証をサポートします。簡易認証を使用するには、HDFS クラスターに対する読み書き権限をユーザーのユーザー名に指定します。Kerberos 認証を使用するには、Kerberos 設定ファイル、Kerberos キーテーブル (キータブ) ファイル、および Kerberos プリンシパル名を指定します。Kerberos プリンシパルの認証情報は、指定されたキータブ ファイル にある必要があります。
暗号化
Kerberos 認証を使用する場合、 DataSync エージェントと HDFS DataSync クラスター間で転送されるデータの暗号化をサポートします。HDFS クラスターの [保護の品質 (QOP)] 設定を使用し、HDFS の場所の作成時に QOP 設定を指定することにより、データを暗号化します。QOP 設定には、データ転送保護とリモートプロシージャコール (RPC) 保護の設定が含まれます。
DataSync 次の Kerberos 暗号化タイプをサポートします。
-
des-cbc-crc
-
des-cbc-md4
-
des-cbc-md5
-
des3-cbc-sha1
-
arcfour-hmac
-
arcfour-hmac-exp
-
aes128-cts-hmac-sha1-96
-
aes256-cts-hmac-sha1-96
-
aes128-cts-hmac-sha256-128
-
aes256-cts-hmac-sha384-192
-
camellia128-cts-cmac
-
camellia256-cts-cmac
また、Transparent Data Encryption (TDE) を使用して、暗号化の HDFS クラスターを安心して設定できます。単純認証を使用する場合、TDE DataSync 対応クラスターに対して読み取りと書き込みを行います。TDE DataSync 対応クラスターへのデータのコピーに使用する場合は、まず HDFS クラスターに暗号化ゾーンを設定します。 DataSync 暗号化ゾーンは作成されません。
HDFS 転送場所の作成
DataSync 転送元として使用できる場所を設定します。
始める前に:次の手順を実行して、エージェントと Hadoop クラスター間のネットワーク接続を確認します。
-
に記載されている TCP ポートへのアクセスをテストします。 自己管理型およびその他のクラウドストレージのネットワーク要件
-
ローカルエージェントと Hadoop クラスター間のアクセスをテストします。手順については、「エージェントとストレージの接続をテストします。」を参照してください。
コンソールを使用して HDFS ロケーションを作成するには DataSync
https://console.aws.amazon.com/datasync/ AWS DataSync
でコンソールを開きます。 -
左側のナビゲーションペインで [データ転送] を展開し、[ロケーション] と [ロケーションの作成] を選択します。
-
[ロケーションタイプ] には [Hadoop 分散ファイルシステム (HDFS)] を選択します。後でこの場所を送信元あるいは送信先として設定することができます。
-
[エージェント]で、使用可能なエージェントのリストから、使用するエージェントを 1 つ以上選択します。エージェントは HDFS クラスターに接続し、HDFS クラスターとの間でデータを安全に転送します。 DataSync
-
にはNameNode、HDFS クラスターのプライマリーのドメイン名または IP アドレスを指定します。 NameNode
-
[フォルダー] には、データ転送に使用する HDFS クラスター上のフォルダーを入力します。 DataSync その場所をタスクのソースとして使用すると、 DataSync 指定されたフォルダー内のファイルがコピーされます。現在地をタスクの宛先として使用すると、 DataSync 指定されたフォルダーにすべてのファイルが書き込まれます。
-
ブロックサイズまたはレプリケーション係数を設定するには、追加設定を選択します。デフォルトのブロックサイズは 128 MiB で、指定するブロックサイズは 512 バイトの倍数でなければなりません。HDFS DataNodes クラスターにデータを転送するときのデフォルトのレプリケーション係数は 3 です。
-
[Security (セキュリティ)] セクションで、HDFS クラスターで使用する認証タイプを選択します。
-
シンプル — ユーザーには、HDFS クラスターで以下の権限を持つユーザー名を指定します (ユースケースによって異なります)。
-
この場所をソース場所として使用する予定の場合は、読み取り権限のみを持つユーザーを指定してください。
-
この場所を目的地として使用する場合は、読み取り権限と書き込み権限を持つユーザーを指定してください。
オプションで、HDFS クラスターのキー管理サーバ (KMS) の URI を指定します。
-
-
Kerberos — HDFS クラスターにアクセスできる Kerberos プリンシパルを指定します。次に、提供された KeyTab Kerberos プリンシパルを含むファイルを指定します。次に、Kerberos 設定ファイルを指定します。最後に、RPC 保護とデータ転送保護ドロップダウンリストで転送中の暗号化の種類を指定します。
-
-
(オプション) [タグを追加] を選択して HDFS の場所にタグを付けます。
タグはキーと値の組み合わせで、ロケーションの管理、フィルタリング、検索に役立ちます。少なくても場所の名前タグを作成することを推奨します。
-
[位置情報を作成] を選択します。
サポートされない HDFS 機能
HDFS の以下の機能は、 DataSync現在ではサポートされていません。
-
Kerberos 認証を使用する場合の Transparent Data Encryption (TDE)
-
複数の設定 NameNodes
-
Hadoop HDFS over HTTP (httpFS)
-
POSIX アクセスコントロールリスト (ACL)
-
HDFS 拡張属性 (xattrs)