翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ステップ 3: エンティティ分析出力を Amazon Kendra メタデータとして書式設定する
Amazon Comprehend によって抽出されたエンティティを Amazon Kendra インデックスに必要なメタデータ形式に変換するには、Python 3 スクリプトを実行します。変換の結果は、Amazon S3 バケット内の metadata
フォルダに保存されます。
Amazon Kendra メタデータの形式と構造の詳細については、S3 ドキュメントメタデータを参照してください。
トピック
Amazon Comprehend の出力をダウンロードして抽出する
Amazon Comprehend エンティティ分析出力を書式設定するには、まず Amazon Comprehend エンティティ分析 output.tar.gz
アーカイブをダウンロードして、エンティティ分析ファイルを抽出する必要があります。
-
Amazon Comprehend コンソールのナビゲーションペインで、[Analysis jobs] (分析ジョブ) に移動します。
-
エンティティ分析ジョブ
data-entities-analysis
を選択します。 -
[Output] (出力) で、[Output data location] (出力データの場所) の隣に表示されるリンクをクリックします。これにより、S3 バケットの
output.tar.gz
アーカイブにリダイレクトします。 -
[Overview] (概要) タブで、[Download] (ダウンロード) を選択します。
ヒント
すべての Amazon Comprehend 分析ジョブの出力は同じ名前になります。アーカイブの名前を変更すると、アーカイブの追跡が容易になります。
-
ダウンロードした Amazon Comprehend ファイルを解凍してデバイスに抽出します。
-
エンティティ分析ジョブの結果を含む S3 バケット内の Amazon Comprehend 自動生成フォルダの名前にアクセスするには、[describe-entities-detection-job]
コマンドを使用します。 -
エンティティのジョブの説明の
OutputDataConfig
オブジェクトから、テキストエディタでcomprehend-S3uri
としてのS3Uri
値をコピーおよび保存します。注記
S3Uri
値はs3://amzn-s3-demo-bucket/.../output/output.tar.gz
のような形式です。 -
エンティティ出力アーカイブをダウンロードするには、[copy]
コマンドを使用します。 -
エンティティ出力を抽出するには、ターミナルウィンドウを開き、以下のコマンドを実行します。
このステップを完了すると、output
というファイルと Amazon Comprehend 識別エンティティのリストがデバイス上に作成されます。
S3 バケットに出力をアップロードする
Amazon Comprehend エンティティ分析ファイルをダウンロードして抽出した後、抽出した output
ファイルを Amazon S3 バケットにファイルへアップロードします。
https://console.aws.amazon.com/s3/
で Amazon S3 コンソールを開きます。 -
[Buckets] (バケット) で、バケットの名前をクリックし、その後 [Upload] (アップロード) をクリックします。
-
[Files and folders] (ファイルとフォルダ) で、[Add files] (ファイルを追加) を選択します。
-
ダイアログボックスで、デバイスの抽出した
output
ファイルに移動して選択し、[Open] (開く) をクリックします。 -
[Destination] (送信先)、[Permissions] (アクセス許可)、および [Properties] (プロパティ) はデフォルト設定のままにしておきます。
-
[Upload] (アップロード) を選択します。
Amazon Kendra メタデータ形式への出力変換
Amazon Comprehend 出力を Amazon Kendra メタデータに変換するには、Python 3 スクリプトを実行します。コンソールを使用している場合は、このステップ AWS CloudShell で を使用します。
-
デバイス上の converter.py.zip 圧縮ファイルをダウンロードします。
-
Python 3 ファイル
converter.py
を抽出します。 -
AWS マネジメントコンソール
にサインインし、 AWS リージョンが S3 バケットおよび Amazon Comprehend 分析ジョブと同じリージョンに設定されていることを確認します。 -
[AWS CloudShell icon] ( アイコン)を選択するか、上部のナビゲーションバーの [Search] (検索) ボックスに AWS CloudShell と入力して環境を起動します。
注記
が新しいブラウザウィンドウで初めて AWS CloudShell 起動すると、ウェルカムパネルが表示され、主要な機能が一覧表示されます。このパネルを閉じて、コマンドプロンプトが表示されると、シェルが対話できる状態になります。
-
ターミナルの準備が完了したら、ナビゲーションペインで [Actions] (アクション) を選択し、メニューから [Upload file] (ファイルをアップロードする) を選択します。
-
開いたダイアログボックスで、[Select file] (ファイルを選択) をクリックし、お使いのデバイスからダウンロードした Python 3 ファイル
converter.py
を選択します。[アップロード] を選択します。 -
AWS CloudShell 環境で、次のコマンドを入力します。
python3 converter.py
-
シェルインターフェイスが [S3 バケットの名前を入力する] プロンプトを表示したら、S3 バケットの名前を入力し、[Enter] キーを押します。
-
シェルインターフェイスが [Enter the full filepath to your Comprehend output file] (Comprehend 出力ファイルへの完全なファイルパスを入力する) プロンプトを表示したら、
output
と入力し、[Enter] キーを押します。 -
シェルインターフェイスが [Enter the full filepath to your metadata folder] (メタデータフォルダへの完全なファイルパスを入力する) プロンプトを表示したら、
metadata/
と入力し、[Enter] キーを押します。
重要
メタデータを正しく書式設定するには、ステップ 8~10 の入力値が正確である必要があります。
-
Python 3 ファイル
converter.py
をダウンロードするには、ターミナルウィンドウを開き、以下のコマンドを実行します。 -
Python 3 ファイル を抽出するには、ターミナルウィンドウを開き、以下のコマンドを実行します。
-
次のコマンドを実行して、Boto3 がお使いのデバイスにインストールされていることを確認します。
注記
Boto3 がインストールされていない場合は、
pip3 install boto3
を実行してインストールしてください。 -
Python 3 スクリプトを実行して
output
ファイルを変換し、次のコマンドを実行します。 -
に AWS CLI プロンプトが表示されたら
Enter the name of your S3 bucket
、S3 バケットの名前を入力し、Enter キーを押します。 -
にプロンプト AWS CLI が表示されたら
Enter the full filepath to your Comprehend output file
、 と入力output
し、Enter キーを押します。 -
にプロンプト AWS CLI が表示されたら
Enter the full filepath to your metadata folder
、 と入力metadata/
し、Enter キーを押します。
重要
メタデータを正しく書式設定するには、ステップ 5~7 の入力値が正確である必要があります。
このステップが完了すると、書式設定されたメタデータは S3 バケット内の metadata
フォルダ内に置かれます。
Amazon S3 バケットをクリーンアップする
Amazon Kendra インデックスはバケットに保存されているすべてのファイルを同期するため、検索結果の重複を防ぐため、Amazon S3 バケットをクリーンアップすることをお勧めします。
https://console.aws.amazon.com/s3/
で Amazon S3 コンソールを開きます。 -
[Buckets] (バケット) で、バケットを選択し、Amazon Comprehend エンティティ分析出力フォルダ、Amazon Comprehend エンティティ分析
.temp
ファイル、および抽出された Amazon Comprehendoutput
ファイルを選択します。 -
[Overview] (概要) タブから [Delete] (削除) を選択します。
-
[Delete objects] (オブジェクトの削除) で、[Permanently delete objects?] (オブジェクトを完全に削除しますか) を選択し、テキスト入力フィールドに
permanently delete
を入力します。 -
[Delete objects] (オブジェクトの削除) を選択します。
このステップが完了すると、Amazon Comprehend エンティティ分析出力が Amazon Kendra メタデータに変換されます。これで、Amazon Kendra インデックスを作成する準備ができました。