Apache Hadoop をソースとして使用する場合の前提条件 Hive をソースとして使用する権限ソースとしての HDFS の権限 HDFS をターゲットとして使用するアクセス権限ソースとしての Apache Hadoop への接続 Hive と HDFS への接続 Amazon EMR にターゲットとして接続する

を使用した Apache Hadoop データベースへの接続 AWS Schema Conversion Tool

AWS SCT コマンドラインインターフェイス (CLI) を使用して、Apache Hadoop から Amazon EMR に移行できます。は、移行中のデータの一時ストレージとして Amazon S3 バケット AWS SCT を使用します。

AWS SCT は、ソースとして Apache Hadoop バージョン 2.2.0 以降をサポートしています。また、は Apache Hive バージョン 0.13.0 以降 AWS SCT もサポートしています。

AWS SCT は、Amazon EMR バージョン 6.3.0 以降をターゲットとしてサポートしています。また、は、Apache Hadoop バージョン 2.6.0 以降、および Apache Hive バージョン 0.13.0 以降をターゲットとして AWS SCT サポートしています。

Apache Hadoop をソースとして使用する場合の前提条件

AWS SCT CLI を使用して Apache Hadoop に接続するには、次の前提条件が必要です。

移行中にデータを保存する Amazon S3 バケットを作成します。その後、データを Amazon EMR HDFS にコピーするか、Amazon S3 を Hadoop ワークロードのデータリポジトリとして使用できます。詳細については、「Amazon S3 ユーザーガイド」の「バケットの作成」を参照してください。
AmazonS3FullAccess ポリシーを使用して AWS Identity and Access Management (IAM) ロールを作成します。 AWS SCT はこの IAM ロールを使用して Amazon S3 バケットにアクセスします。
AWS シークレットキーとシー AWS クレットアクセスキーを書き留めます。 AWS アクセスキーの詳細については、「IAM ユーザーガイド」の「アクセスキーの管理」を参照してください。
ターゲット Amazon EMR クラスターを作成して設定します。詳細については、『Amazon EMR 管理ガイド』の「Amazon EMR の使用開始」を参照してください。
distcp ユーティリティをソース Apache Hadoop クラスターにインストールします。また、ターゲットの Amazon EMR クラスターに s3-dist-cp ユーティリティをインストールします。データベースユーザーがこれらのユーティリティを実行する権限を持っていることを確認してください。
ソース Hadoop クラスター内の core-site.xml ファイルを s3a プロトコルを使用するように設定します。これを行うには、fs.s3a.aws.credentials.provider パラメータを次のいずれかの値に設定します。
- org.apache.hadoop.fs.s3a.TemporaryAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.AnonymousAWSCredentialsProvider
- org.apache.hadoop.fs.s3a.auth.AssumedRoleCredentialProvider
次のコード例を core-site.xml ファイルに追加できます。
```
<property>
  <name>fs.s3a.aws.credentials.provider</name>
  <value>org.apache.hadoop.fs.s3a.SimpleAWSCredentialsProvider</value>
</property>
```
前の例は、前述のオプションリストにある 4 つのオプションのうち 1 つを示しています。core-site.xml ファイルで fs.s3a.aws.credentials.providerパラメータを設定しない場合、は自動的にプロバイダー AWS SCT を選択します。

ソースとして Hive を使用する権限

Hive ソースユーザーに必要な権限は次のとおりです。

ソースデータフォルダとソース Amazon S3 バケットへの READ アクセス
中間およびターゲットの Amazon S3 バケットへの READ+WRITE アクセス

移行速度を上げるために、ACID トランザクションソーステーブルのコンパクションを実行することをお勧めします。

Amazon EMR Hive のターゲットユーザーに必要なアクセス権限は次のとおりです。

Amazon S3 バケットへの READ アクセス
中間 Amazon S3 バケットへの READ+WRITE アクセス
ターゲット HDFS フォルダへの READ+WRITE アクセス

ソースとして HDFS を使用する権限

HDFS をソースとして使用するのに必要な権限は次のとおりです。

NameNode 用の EXECUTE
移行プロジェクトに含める EXECUTE+READ のすべてのソースフォルダとファイル用
Amazon S3 への移行前に Spark ジョブを実行し、ファイルを保存するための NameNode 内の tmp ディレクトリの READ+WRITE 用

HDFS では、すべての操作にトラバーサルアクセス権限が必要です。トラバーサルアクセスには、最後のパスコンポーネントを除いて、パスの既存のすべてのコンポーネントに対する EXECUTE アクセス権限が必要です。たとえば、/foo/bar/baz にアクセスする操作を行う場合、ユーザーには、EXECUTE、/、/foo、/foo/bar に対するアクセス権限が必要です。

次のコード例は、ソースフォルダとファイルへの EXECUTE+READ アクセス権限、および tmp ディレクトリへの READ+WRITE アクセス権限を付与する方法を示しています。


hadoop fs –chmod –R 744 /user/hdfs-data
hadoop fs –chmod –R 766 /tmp

HDFS をターゲットとして使用するためのアクセス権限

Amazon EMR HDFS のターゲットユーザーに必要なアクセス権限は次のとおりです。

ターゲット Amazon EMR クラスターの NameNode 用の EXECUTE
移行後にデータを保存するターゲット HDFS フォルダ用の READ+WRITE

ソースとしての Apache Hadoop への接続

AWS SCT バージョン 1.0.670 以降では、ソースとして Apache Hadoop を使用できます。Hadoop クラスターを Amazon EMR に移行できるのは、 AWS SCT コマンドラインインターフェイス (CLI) のみです。開始する前に、 AWS SCTのコマンドラインインターフェイスに慣れておきかしょう。詳細については、「の CLI リファレンス AWS Schema Conversion Tool」を参照してください。

CLI で Apache Hadoop AWS SCT に接続するには

新しい CLI AWS SCT スクリプトを作成するか、既存のシナリオテンプレートを編集します。例えば、HadoopMigrationTemplate.scts テンプレートをダウンロードして編集できます。詳細については、「CLI シナリオの取得」を参照してください。
ドライバーの場所やログフォルダなどの AWS SCT アプリケーション設定を行います。

必要な JDBC ドライバーをダウンロードし、ファイルを保存する場所を指定します。詳細については、「用の JDBC ドライバーのインストール AWS Schema Conversion Tool」を参照してください。

次のコード例では、Apache Hive ドライバーにパスを追加する方法を示します。このコード例を実行すると、はログファイルを c:\sctフォルダに AWS SCT 保存します。
```
SetGlobalSettings
    -save: 'true'
    -settings: '{
        "hive_driver_file": "c:\\sct\\HiveJDBC42.jar",
        "log_folder": "c:\\sct",
        "console_log_folder": "c:\\sct"
    }'
/
```
Windows では、この例と以下の例を使用できます。
新しい AWS SCT プロジェクトを作成します。

次のコード例では、c:\sct フォルダに hadoop_emr プロジェクトを作成します。
```
CreateProject
    -name: 'hadoop_emr'
    -directory: 'c:\sct'
/
```
ソース Hadoop クラスターをプロジェクトに追加します。

AddSourceCluster コマンドを使用して、ソース Hadoop クラスターに接続します。name、host、port、user の必須パラメータには必ず値を指定してください。その他のパラメータは省略可能です。

次のコード例では、ソース Hadoop クラスターを追加します。この例では、HADOOP_SOURCE をソースクラスターの名前として設定しています。このオブジェクト名を使用して Hive と HDFS サービスをプロジェクトに追加し、マッピングルールを作成します。
```
AddSourceCluster
    -name: 'HADOOP_SOURCE'
    -vendor: 'HADOOP'
    -host: 'hadoop_address'
    -port: '22'
    -user: 'hadoop_user'
    -password: 'hadoop_password'
    -useSSL: 'true'
    -privateKeyPath: 'c:\path\name.pem'
    -passPhrase: 'hadoop_passphrase'
/
```
前の例では、hadoop_address を Hadoop クラスターの IP アドレスに置き換えてください。必要に応じて port オプションの値を設定します。次に、hadoop_user と hadoop_password を Hadoop ユーザーの名前とこのユーザーのパスワードに置き換えます。path\name には、ソース Hadoop クラスターの PEM ファイルの名前とパスを入力します。
CLI スクリプトを保存します。次に、Hive と HDFS サービスの接続情報を追加します。

Hive と HDFS のソースサービスへの接続

CLI を使用して、ソースの Hive および HDFS AWS SCT サービスに接続できます。Apache Hive に接続するには、Hive JDBC ドライバーバージョン 2.3.4 以降を使用してください。詳細については、「用の JDBC ドライバーのインストール AWS Schema Conversion Tool」を参照してください。

AWS SCT はクラスターhadoopユーザーを使用して Apache Hive に接続します。これを行うには、AddSourceClusterHive および AddSourceClusterHDFS コマンドを使用します。これを行うには、次のいずれかのアプローチを使用できます。

新しい SSH トンネルを作成します。

createTunnel に「true」と入力します。host には、ソース Hive または HDFS サービスの内部 IP アドレスを入力します。port には、Hive または HDFS サービスのサービスポートを入力します。

次に、user および password の Hive または HDFS の認証情報を入力します。SSH トンネルの詳細については、『Amazon EMR 管理ガイド』の「ローカルポート転送を使用したプライマリノードへの SSH トンネルのセットアップ」を参照してください。
既存の SSH トンネルを使用する。

host に「localhost」と入力します。port には、SSH トンネルパラメータからローカルポートを入力します。
Hive および HDFS サービスに直接接続します。

host には、ソース Hive または HDFS サービスの IP アドレスまたはホスト名を入力します。port には、Hive または HDFS サービスのサービスポートを入力します。次に、user および password の Hive または HDFS の認証情報を入力します。

CLI で Hive と HDFS AWS SCT に接続するには

ソース Hadoop クラスターの接続情報を含む CLI スクリプトを開きます。前のステップで定義した Hadoop クラスターの名前を使用してください。
ソース Hive サービスをプロジェクトに追加します。

AddSourceClusterHive コマンドを使用してソース Hive サービスを接続します。user、password、cluster、name、port の必須パラメータには必ず値を指定してください。その他のパラメータは省略可能です。

次のコード例では、が Hive サービスと連携 AWS SCT するためのトンネルを作成します。このソース Hive サービスは AWS SCTと同じ PC 上で動作します。この例では、前の例の HADOOP_SOURCE ソースクラスターを使用しています。
```
AddSourceClusterHive
    -cluster: 'HADOOP_SOURCE'
    -name: 'HIVE_SOURCE'
    -host: 'localhost'
    -port: '10005'
    -user: 'hive_user'
    -password: 'hive_password'
    -createTunnel: 'true'
    -localPort: '10005'
    -remoteHost: 'hive_remote_address'
    -remotePort: 'hive_port'
/
```
次のコード例は、トンネルなしで Hive サービスに接続します。
```
AddSourceClusterHive
    -cluster: 'HADOOP_SOURCE'
    -name: 'HIVE_SOURCE'
    -host: 'hive_address'
    -port: 'hive_port'
    -user: 'hive_user'
    -password: 'hive_password'
/
```
前述の例では、hive_user と hive_password を Hive ユーザーの名前とこのユーザーのパスワードに置き換えます。

次に、hive_address と hive_port をソース Hadoop クラスターNameNode IP アドレスとポートに置き換えます。

hive_remote_address には、ソースの Hive サービスのデフォルト値 127.0.0.1 またはNameNode IP アドレスを使用できます。
ソース HDFS サービスをプロジェクトに追加します。

AddSourceClusterHDFS コマンドを使用してソース HDFS サービスを接続します。user、password、cluster、name、port の必須パラメータには必ず値を指定してください。その他のパラメータは省略可能です。

ソース HDFS サービスからデータを移行するために必要なアクセス権限がユーザーにあることを確認します。詳細については、「ソースとして Hive を使用する権限」を参照してください。

次のコード例では、が Apache HDFS サービスと連携 AWS SCT するためのトンネルを作成します。この例では、前に作成した HADOOP_SOURCE ソースクラスターを使用しています。
```
AddSourceClusterHDFS
    -cluster: 'HADOOP_SOURCE'
    -name: 'HDFS_SOURCE'
    -host: 'localhost'
    -port: '9005'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
    -createTunnel: 'true'
    -localPort: '9005'
    -remoteHost: 'hdfs_remote_address'
    -remotePort: 'hdfs_port'
/
```
次のコードはトンネルなしで Apache HDFS サービスに接続します。
```
AddSourceClusterHDFS
    -cluster: 'HADOOP_SOURCE'
    -name: 'HDFS_SOURCE'
    -host: 'hdfs_address'
    -port: 'hdfs_port'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
/
```
前述の例では、hdfs_user と hdfs_password を HDFS ユーザーの名前とこのユーザーのパスワードに置き換えます。

次に、hdfs_address と hdfs_port をソース Hadoop クラスターNameNode IP アドレスとポートに置き換えます。

hdfs_remote_address には、ソースの Hive サービスのデフォルト値 127.0.0.1 またはNameNode IP アドレスを使用できます。
CLI スクリプトを保存します。次に、ターゲット Amazon EMR クラスターの接続情報と移行コマンドを追加します。

Amazon EMR にターゲットとして接続する

CLI を使用して、ターゲット Amazon EMR AWS SCT クラスターに接続できます。そのためには、インバウンドトラフィックを承認し、SSH を使用します。この場合、 AWS SCT には Amazon EMR クラスターを操作するために必要なアクセス許可がすべてあります。詳細については、『Amazon EMR 管理ガイド』の「接続する前に」と「SSH を使用してプライマリノードに接続する」を参照してください。

AWS SCT はクラスターhadoopユーザーを使用して Amazon EMR Hive に接続します。Amazon EMR Hive に接続するには、Hive JDBC ドライバーバージョン 2.6.2.1002 以降を使用してください。詳細については、「用の JDBC ドライバーのインストール AWS Schema Conversion Tool」を参照してください。

CLI で Amazon EMR AWS SCT に接続するには

ソース Hadoop クラスターの接続情報を含む CLI スクリプトを開きます。ターゲットの Amazon EMR 認証情報をこのファイルに追加します。
ターゲットの Amazon EMR クラスターをプロジェクトに追加します。

次のコード例では、ターゲットの Amazon EMR クラスターを追加します。この例では、HADOOP_TARGET をターゲットクラスターの名前として設定します。このオブジェクト名を使用して、Hive と HDFS サービス、および Amazon S3、バケットフォルダをプロジェクトに追加し、マッピングルールを作成します。
```
AddTargetCluster
	-name: 'HADOOP_TARGET'
	-vendor: 'AMAZON_EMR'
	-host: 'ec2-44-44-55-66.eu-west-1.EXAMPLE.amazonaws.com'
	-port: '22'
	-user: 'emr_user'
	-password: 'emr_password'
	-useSSL: 'true'
	-privateKeyPath: 'c:\path\name.pem'
	-passPhrase: '1234567890abcdef0!'
	-s3Name: 'S3_TARGET'
	-accessKey: 'AKIAIOSFODNN7EXAMPLE'
	-secretKey: 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY'
	-region: 'eu-west-1'
	-s3Path: 'doc-example-bucket/example-folder'
/
```
前の例では、 AWS リソース名と Amazon EMR 接続情報を入力します。これには、Amazon EMR クラスターの IP アドレス、 AWS アクセスキー、 AWS シークレットアクセスキー、Amazon S3 バケットが含まれます。必要に応じて、ポート変数の値を設定します。次に、emr_user と emr_password を Amazon EMR ユーザーの名前とこのユーザーのパスワードに置き換えます。path\ n name には、ターゲット Amazon EMR クラスターの PEM ファイルの名前とパスを入力します。詳細については、「EMR クラスターアクセス用の PEM ファイルのダウンロード」を参照してください。
ターゲット Amazon S3 バケットをプロジェクトに追加します。

次のコード例では、ターゲットの Amazon S3 バケットを追加します。この例では、前に作成した HADOOP_TARGET クラスターを使用しています。
```
AddTargetClusterS3
	-cluster: 'HADOOP_TARGET'
	-Name: 'S3_TARGET'
	-accessKey: 'AKIAIOSFODNN7EXAMPLE'
	-secretKey: 'wJalrXUtnFEMI/K7MDENG/bPxRfiCYEXAMPLEKEY'
	-region: 'eu-west-1'
	-s3Path: 'doc-example-bucket/example-folder'
/
```
前の例で、 AWS アクセスキー、 AWS シークレットアクセスキー、および Amazon S3 バケットを入力します。
ターゲットの Hive サービスをプロジェクトに追加します。

次のコード例では、がターゲット Hive サービスと連携 AWS SCT するためのトンネルを作成します。この例では、前に作成した HADOOP_TARGET ターゲットクラスターを使用しています。
```
AddTargetClusterHive
    -cluster: 'HADOOP_TARGET'
    -name: 'HIVE_TARGET'
    -host: 'localhost'
    -port: '10006'
    -user: 'hive_user'
    -password: 'hive_password'
    -createTunnel: 'true'
    -localPort: '10006'
    -remoteHost: 'hive_address'
    -remotePort: 'hive_port'
/
```
前述の例では、hive_user と hive_password を Hive ユーザーの名前とこのユーザーのパスワードに置き換えます。

次に、hive_address をデフォルト値 127.0.0.1 またはターゲットの Hive サービスのNameNode IP アドレスに置き換えます。次に、hive_port を対象の Hive サービスのポートに置き換えます。
ターゲット HDFS サービスをプロジェクトに追加します。

次のコード例では、が Apache HDFS サービスと連携 AWS SCT するためのトンネルを作成します。この例では、前に作成した HADOOP_TARGET ターゲットクラスターを使用しています。
```
AddTargetClusterHDFS
    -cluster: 'HADOOP_TARGET'
    -name: 'HDFS_TARGET'
    -host: 'localhost'
    -port: '8025'
    -user: 'hdfs_user'
    -password: 'hdfs_password'
    -createTunnel: 'true'
    -localPort: '8025'
    -remoteHost: 'hdfs_address'
    -remotePort: 'hdfs_port'
/
```
前述の例では、hdfs_user と hdfs_password を HDFS ユーザーの名前とこのユーザーのパスワードに置き換えます。

次に、hdfs_address と hdfs_port を、ターゲット HDFS サービスのプライベート IP アドレスとNameNode ポートに置き換えます。
CLI スクリプトを保存します。次に、マッピングルールと移行コマンドを追加します。詳細については、「Hadoop ワークロードの移行」を参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

Apache Cassandra への接続

Apache Oozie への接続