Amazon Comprehend の出力をダウンロードして抽出する S3 バケットに出力をアップロードする Amazon Kendra メタデータ形式への出力変換 Amazon S3 バケットをクリーンアップする

ステップ 3: エンティティ分析出力を Amazon Kendra メタデータとして書式設定する

Amazon Comprehend によって抽出されたエンティティを Amazon Kendra インデックスに必要なメタデータ形式に変換するには、Python 3 スクリプトを実行します。変換の結果は、Amazon S3 バケット内の metadata フォルダに保存されます。

Amazon Kendra メタデータの形式と構造の詳細については、S3 ドキュメントメタデータを参照してください。

Amazon Comprehend の出力をダウンロードして抽出する

Amazon Comprehend エンティティ分析出力を書式設定するには、まず Amazon Comprehend エンティティ分析 output.tar.gz アーカイブをダウンロードして、エンティティ分析ファイルを抽出する必要があります。

Amazon Comprehend コンソールのナビゲーションペインで、[Analysis jobs] (分析ジョブ) に移動します。
エンティティ分析ジョブ data-entities-analysis を選択します。
[Output] (出力) で、[Output data location] (出力データの場所) の隣に表示されるリンクをクリックします。これにより、S3 バケットの output.tar.gz アーカイブにリダイレクトします。
[Overview] (概要) タブで、[Download] (ダウンロード) を選択します。

ヒント
すべての Amazon Comprehend 分析ジョブの出力は同じ名前になります。アーカイブの名前を変更すると、アーカイブの追跡が容易になります。
ダウンロードした Amazon Comprehend ファイルを解凍してデバイスに抽出します。

エンティティ分析ジョブの結果を含む S3 バケット内の Amazon Comprehend 自動生成フォルダの名前にアクセスするには、[describe-entities-detection-job] コマンドを使用します。
Linux
```
aws comprehend describe-entities-detection-job \
          --job-id entities-job-id \
          --region aws-region
```
コードの説明は以下のとおりです。
entities-job-id は、ステップ 2: Amazon Comprehend でエンティティ分析ジョブを実行するから保存した comprehend-job-id、

aws-region はお客様の AWS リージョンです。
macOS
```
aws comprehend describe-entities-detection-job \
          --job-id entities-job-id \
          --region aws-region
```
コードの説明は以下のとおりです。
entities-job-id は、ステップ 2: Amazon Comprehend でエンティティ分析ジョブを実行するから保存した comprehend-job-id、

aws-region はお客様の AWS リージョンです。
Windows
```
aws comprehend describe-entities-detection-job ^
          --job-id entities-job-id ^
          --region aws-region
```
コードの説明は以下のとおりです。
entities-job-id は、ステップ 2: Amazon Comprehend でエンティティ分析ジョブを実行するから保存した comprehend-job-id、

aws-region はお客様の AWS リージョンです。
エンティティのジョブの説明の OutputDataConfig オブジェクトから、テキストエディタで comprehend-S3uri としての S3Uri 値をコピーおよび保存します。

注記
S3Uri 値には、s3://amzn-s3-demo-bucket/.../output/output.tar.gz のような形式があります。
エンティティ出力アーカイブをダウンロードするには、[copy] コマンドを使用します。
Linux
```
aws s3 cp s3://amzn-s3-demo-bucket/.../output/output.tar.gz path/output.tar.gz
```
コードの説明は以下のとおりです。
s3://amzn-s3-demo-bucket/.../output/output.tar.gz はcomprehend-S3uri、として保存したS3Uri値です。

path/ は、出力を保存するローカルディレクトリです。
macOS
```
aws s3 cp s3://amzn-s3-demo-bucket/.../output/output.tar.gz path/output.tar.gz
```
コードの説明は以下のとおりです。
s3://amzn-s3-demo-bucket/.../output/output.tar.gz はcomprehend-S3uri、として保存したS3Uri値です。

path/ は、出力を保存するローカルディレクトリです。
Windows
```
aws s3 cp s3://amzn-s3-demo-bucket/.../output/output.tar.gz path/output.tar.gz
```
コードの説明は以下のとおりです。
s3://amzn-s3-demo-bucket/.../output/output.tar.gz はcomprehend-S3uri、として保存したS3Uri値です。

path/ は、出力を保存するローカルディレクトリです。
エンティティ出力を抽出するには、ターミナルウィンドウを開き、以下のコマンドを実行します。
Linux
```
tar -xf path/output.tar.gz -C path/
```
コードの説明は以下のとおりです。
path/ は、ローカルデバイス上にダウンロードした output.tar.gz アーカイブへのファイルパスです。
macOS
```
tar -xf path/output.tar.gz -C path/
```
コードの説明は以下のとおりです。
path/ は、ローカルデバイス上にダウンロードした output.tar.gz アーカイブへのファイルパスです。
Windows
```
tar -xf path/output.tar.gz -C path/
```
コードの説明は以下のとおりです。
path/ は、ローカルデバイス上にダウンロードした output.tar.gz アーカイブへのファイルパスです。

このステップを完了すると、output というファイルと Amazon Comprehend 識別エンティティのリストがデバイス上に作成されます。

S3 バケットに出力をアップロードする

Amazon Comprehend エンティティ分析ファイルをダウンロードして抽出した後、抽出した output ファイルを Amazon S3 バケットにファイルへアップロードします。

Amazon S3 コンソール (https://console.aws.amazon.com/s3/) を開きます。
[Buckets] (バケット) で、バケットの名前をクリックし、その後 [Upload] (アップロード) をクリックします。
[Files and folders] (ファイルとフォルダ) で、[Add files] (ファイルを追加) を選択します。
ダイアログボックスで、デバイスの抽出した output ファイルに移動して選択し、[Open] (開く) をクリックします。
[Destination] (送信先)、[Permissions] (アクセス許可)、および [Properties] (プロパティ) はデフォルト設定のままにしておきます。
[Upload] (アップロード) を選択します。

抽出したoutput ファイルをバケットにアップロードするには、[copy] コマンドを使用します。
Linux
```
aws s3 cp path/output s3://amzn-s3-demo-bucket/output
```
コードの説明は以下のとおりです。
path/ は、抽出した output ファイルへのローカルファイルパス、

amzn-s3-demo-bucket は S3 バケットの名前です。
macOS
```
aws s3 cp path/output s3://amzn-s3-demo-bucket/output
```
コードの説明は以下のとおりです。
path/ は、抽出した output ファイルへのローカルファイルパス、

amzn-s3-demo-bucket は S3 バケットの名前です。
Windows
```
aws s3 cp path/output s3://amzn-s3-demo-bucket/output
```
コードの説明は以下のとおりです。
path/ は、抽出した output ファイルへのローカルファイルパス、

amzn-s3-demo-bucket は S3 バケットの名前です。
output ファイルが S3 バケットに正常にアップロードされたことを確認するには、[list] コマンドを使用してその内容をチェックします。
Linux
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
macOS
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
Windows
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。

Amazon Kendra メタデータ形式への出力変換

Amazon Comprehend 出力を Amazon Kendra メタデータに変換するには、Python 3 スクリプトを実行します。コンソールを使用している場合は、このステップ AWS CloudShell でを使用します。

デバイス上の converter.py.zip 圧縮ファイルをダウンロードします。
Python 3 ファイル converter.py を抽出します。
AWS マネジメントコンソールにサインインし、 AWS リージョンが S3 バケットおよび Amazon Comprehend 分析ジョブと同じリージョンに設定されていることを確認します。
[AWS CloudShell icon] ( アイコン)を選択するか、上部のナビゲーションバーの [Search] (検索) ボックスに AWS CloudShell と入力して環境を起動します。

注記
が新しいブラウザウィンドウで初めて AWS CloudShell 起動すると、ウェルカムパネルが表示され、主要な機能が一覧表示されます。このパネルを閉じて、コマンドプロンプトが表示されると、シェルが対話できる状態になります。
ターミナルの準備が完了したら、ナビゲーションペインで [Actions] (アクション) を選択し、メニューから [Upload file] (ファイルをアップロードする) を選択します。
開いたダイアログボックスで、[Select file] (ファイルを選択) をクリックし、お使いのデバイスからダウンロードした Python 3 ファイル converter.py を選択します。[アップロード] を選択します。
AWS CloudShell 環境で、次のコマンドを入力します。
```
python3 converter.py
```
シェルインターフェイスが [S3 バケットの名前を入力する] プロンプトを表示したら、S3 バケットの名前を入力し、[Enter] キーを押します。
シェルインターフェイスが [Enter the full filepath to your Comprehend output file] (Comprehend 出力ファイルへの完全なファイルパスを入力する) プロンプトを表示したら、output と入力し、[Enter] キーを押します。
シェルインターフェイスが [Enter the full filepath to your metadata folder] (メタデータフォルダへの完全なファイルパスを入力する) プロンプトを表示したら、metadata/ と入力し、[Enter] キーを押します。

重要

メタデータを正しく書式設定するには、ステップ 8～10 の入力値が正確である必要があります。

Python 3 ファイル converter.py をダウンロードするには、ターミナルウィンドウを開き、以下のコマンドを実行します。
Linux
```
curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip
```
コードの説明は以下のとおりです。
path/ は、圧縮フォルダを保存する場所へのファイルパスです。
macOS
```
curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip
```
コードの説明は以下のとおりです。
path/ は、圧縮フォルダを保存する場所へのファイルパスです。
Windows
```
curl -o path/converter.py.zip https://docs.aws.amazon.com/kendra/latest/dg/samples/converter.py.zip
```
コードの説明は以下のとおりです。
path/ は、圧縮フォルダを保存する場所へのファイルパスです。
Python 3 ファイルを抽出するには、ターミナルウィンドウを開き、以下のコマンドを実行します。
Linux
```
unzip path/converter.py.zip -d path/
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
macOS
```
unzip path/converter.py.zip -d path/
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
Windows
```
tar -xf path/converter.py.zip -C path/
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
次のコマンドを実行して、Boto3 がお使いのデバイスにインストールされていることを確認します。
Linux
```
pip3 show boto3
```
macOS
```
pip3 show boto3
```
Windows
```
pip3 show boto3
```
注記
Boto3 がインストールされていない場合は、pip3 install boto3 を実行してインストールしてください。
Python 3 スクリプトを実行して output ファイルを変換し、次のコマンドを実行します。
Linux
```
python path/converter.py
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
macOS
```
python path/converter.py
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
Windows
```
python path/converter.py
```
コードの説明は以下のとおりです。
path/ は、保存した converter.py.zip へのファイルパスです。
プロンプト AWS CLI が表示されたらEnter the name of your S3 bucket、S3 バケットの名前を入力し、Enter キーを押します。
プロンプト AWS CLI が表示されたらEnter the full filepath to your Comprehend output file、「」と入力outputし、Enter キーを押します。
プロンプト AWS CLI が表示されたらEnter the full filepath to your metadata folder、「」と入力metadata/し、Enter キーを押します。

重要

メタデータを正しく書式設定するには、ステップ 5～7 の入力値が正確である必要があります。

このステップが完了すると、書式設定されたメタデータは S3 バケット内の metadata フォルダ内に置かれます。

Amazon S3 バケットをクリーンアップする

Amazon Kendra インデックスはバケットに保存されているすべてのファイルを同期するため、検索結果の重複を防ぐため、Amazon S3 バケットをクリーンアップすることをお勧めします。

Amazon S3 コンソール (https://console.aws.amazon.com/s3/) を開きます。
[Buckets] (バケット) で、バケットを選択し、Amazon Comprehend エンティティ分析出力フォルダ、Amazon Comprehend エンティティ分析 .temp ファイル、および抽出された Amazon Comprehend output ファイルを選択します。
[Overview] (概要) タブから [Delete] (削除) を選択します。
[Delete objects] (オブジェクトの削除) で、[Permanently delete objects?] (オブジェクトを完全に削除しますか) を選択し、テキスト入力フィールドに permanently delete を入力します。
[Delete objects] (オブジェクトの削除) を選択します。

S3 バケット内の data ファイルと metadata フォルダをすべて削除するには、 AWS CLIで [remove] コマンドを使用します。
Linux
```
aws s3 rm s3://amzn-s3-demo-bucket/ --recursive --exclude "data/*" --exclude "metadata/*"
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
macOS
```
aws s3 rm s3://amzn-s3-demo-bucket/ --recursive --exclude "data/*" --exclude "metadata/*"
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
Windows
```
aws s3 rm s3://amzn-s3-demo-bucket/ --recursive --exclude "data/*" --exclude "metadata/*"
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
オブジェクトが S3 バケットから正常に削除されたことを確認するには、[list] コマンドを使用してその内容をチェックします。
Linux
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
macOS
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。
Windows
```
aws s3 ls s3://amzn-s3-demo-bucket/
```
コードの説明は以下のとおりです。
amzn-s3-demo-bucket は S3 バケットの名前です。

このステップが完了すると、Amazon Comprehend エンティティ分析出力が Amazon Kendra メタデータに変換されます。これで、Amazon Kendra インデックスを作成する準備ができました。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ステップ 2: エンティティを検出する

ステップ 4: インデックスを作成し、メタデータを取り込む