翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ステップ 2: Amazon Comprehend でエンティティ分析ジョブを実行する
S3 バケットにサンプルデータセットを保存した後、Amazon Comprehend エンティティ分析ジョブを実行して、ドキュメントからエンティティを抽出します。これらのエンティティは Amazon Kendra カスタム属性を形成し、インデックスの検索結果をフィルタリングするのに役立ちます。詳細については、エンティティの検出を参照してください。
Amazon Comprehend でエンティティ分析ジョブを実行する
データセットからエンティティを抽出するには、Amazon Comprehend エンティティ分析ジョブを実行します。
このステップで を使用している場合 AWS CLIは、まず Amazon Comprehend の ロールとポリシーを作成してアタッチ AWS IAMし、エンティティ分析ジョブを実行します。サンプルデータでエンティティ分析ジョブを実行するには、Amazon Comprehend は次のものが必要です。
-
信頼できるエンティティとして認識する AWS Identity and Access Management (IAM) ロール
-
S3 バケットへのアクセス許可を付与するIAMロールにア AWS IAMタッチされた ポリシー
詳細については、Amazon Comprehend が と連携する方法IAM」およびAmazon Comprehend」を参照してください。
で Amazon Comprehend コンソールを開きますhttps://console.aws.amazon.com/comprehend/
。 重要
Amazon S3 バケットを作成したリージョンと同じリージョンに存在することを確認します。別のリージョンにいる場合は、上部のナビゲーションバーの AWS リージョンセレクターから S3 バケットを作成したリージョンを選択します。
-
[Launch Amazon Comprehend] (Amazon Comprehend の起動) を選択します。
-
左側のナビゲーションペインで、[Analysis jobs] (分析ジョブ) を選択します。
-
[Create job] (ジョブの作成) を選択します。
-
[Job settings] (ジョブの設定) セクションで、以下の操作を行います。
-
[Name] (名前)に
data-entities-analysis
と入力します。 -
[Analysis type] (分析タイプ) で、[Entities] (エンティティ) を選択します。
-
[Language] (言語) で、[English] (英語) を選択します。
-
[Job encryption] (ジョブの暗号化) は無効のままにしておきます。
-
-
[Input data] (入力データ) セクションで、以下の操作を行います。
-
[Data source] (データソース) で、[My documents] (マイドキュメント) を選択します。
-
[S3 location] (S3 の場所) で、[Browse S3] (S3 を閲覧する) を選択します。
-
[Choose resources] (リソースの選択) については、バケットのリストからバケットの名前をクリックします。
-
[Objects] (オブジェクト) で、
data
のオプションボタンを選択し、[Choose] (選択) をクリックします。 -
[Input format] (入力形式) で、[One document per file] (ファイルあたり 1 つのドキュメント) を選択します。
-
-
[Output data] (出力データ) セクションで、以下の操作を行います。
-
[S3 locatio] (S3 の場所) で、[Browse S3] (S3 を閲覧する)、バケットのリストからバケットのオプションボックスの順に選択し、[Choose] (選択) をクリックします。
-
[Encryption] (暗号化) は無効のままにしておきます。
-
-
[Access permissions] (アクセス許可) セクションで、以下の操作を行います。
-
IAM ロール で、IAMロールの作成 を選択します。
-
[Permissions to access] (アクセスの許可) で、[Input and Output S3 buckets] (S3 バケットの入力と出力) を選択します。
-
[Name suffix] (サフィックスに名前を付ける) で、
comprehend-role
と入力します。このロールは、Amazon S3 バケットへのアクセスを提供します。
-
-
VPC デフォルト設定のままにします。
-
[ジョブの作成]を選択します。
-
信頼できるエンティティとして認識する Amazon Comprehend の IAMロールを作成してアタッチするには、次の手順を実行します。
-
次の信頼ポリシーを、ローカルデバイスのテキストエディタ
comprehend-trust-policy.json
で という名前のJSONファイルとして保存します。{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Principal": { "Service": "comprehend.amazonaws.com" }, "Action": "sts:AssumeRole" } ] }
-
という名前のIAMロールを作成し
comprehend-role
、保存したcomprehend-trust-policy.json
ファイルをアタッチするには、create-roleコマンドを使用します。 -
Amazon リソースネーム (ARN) をテキストエディタにコピーし、 としてローカルに保存します
comprehend-role-arn
。注記
の形式ARNは のようになります。
arn:aws:iam::123456789012:role/comprehend-role
。 Amazon Comprehend 分析ジョブを実行するcomprehend-role-arn
には、 としてARN保存した が必要です。
-
-
S3 バケットへのアクセス許可を付与する IAMポリシーを作成してIAMロールにアタッチするには、次の手順を実行します。
-
次の信頼ポリシーを、ローカルデバイスのテキストエディタ
comprehend-S3-access-policy.json
で という名前のJSONファイルとして保存します。{ "Version": "2012-10-17", "Statement": [ { "Action": [ "s3:GetObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket/*" ], "Effect": "Allow" }, { "Action": [ "s3:ListBucket" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket" ], "Effect": "Allow" }, { "Action": [ "s3:PutObject" ], "Resource": [ "arn:aws:s3:::amzn-s3-demo-bucket/*" ], "Effect": "Allow" } ] }
-
S3 バケットにアクセス
comprehend-S3-access-policy
するために という名前のIAMポリシーを作成するには、create-policyコマンドを使用します。 -
Amazon リソースネーム (ARN) をテキストエディタにコピーし、 としてローカルに保存します
comprehend-S3-access-arn
。注記
の形式ARNは のようになります。
arn:aws:iam::123456789012:role/comprehend-S3-access-policy
。 ARN をIAMロールcomprehend-S3-access-policy
にアタッチcomprehend-S3-access-arn
するには、 として保存した が必要です。 -
をIAMロール
comprehend-S3-access-policy
にアタッチするには、 attach-role-policyコマンドを使用します。
-
-
Amazon Comprehend エンティティ分析ジョブを実行するには、 start-entities-detection-job
コマンドを使用します。 -
エンティティ分析
JobId
をコピーし、テキストエディタでcomprehend-job-id
という名前を付けて保存します。JobId
は、エンティティ分析ジョブのステータスを追跡するのに役立ちます。 -
エンティティ分析ジョブの進行状況を追跡するには、 describe-entities-detection-job
コマンドを使用します。
JobStatus
が COMPLETED
に変わるまで数分かかることがあります。
このステップを完了すると、Amazon Comprehend はエンティティ分析結果を、S3 バケット内の自動生成されたフォルダ内の output
フォルダに、output.tar.gz
圧縮ファイルとして保存します。分析ジョブのステータスが完了していることを確認し、次のステップに進みます。