第 3 步:在 Amazon S3 中的文档上运行分析作业 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第 3 步:在 Amazon S3 中的文档上运行分析作业

在 Amazon S3 中存储数据后,您可以开始运行 Amazon Comprehend 分析作业。一个情绪分析作业决定了文档的整体情绪(正面、负面、中性或混合)。网络 ACL 和安全组都允许 (因此可到达您的实例) 的发起 ping 的实体分析作业从文档中提取真实世界对象的名称。这些对象包括人物、地点、标题、事件、日期、数量、产品和组织。在此步骤中,您将运行两个 Amazon Comprehend 分析作业以从示例数据集中提取情绪和实体。

先决条件

开始之前,请执行以下操作:

分析情绪和实体

您运行的第一个作业将分析样本数据集中每条客户评论的情绪。第二项工作提取每个客户评论中的实体。您可以使用 Amazon Comprehend 控制台或AWS CLI.

提示

确保您位于支持 Amazon Comprehend 的 AWS 区域。有关更多信息,请参阅 。区域表中的全球基础设施指南.

在使用 Amazon Comprehend 控制台时,您一次创建一个作业。您需要重复以下步骤才能同时运行情绪分析作业和实体分析作业。请注意,对于第一个任务,您可以创建 IAM 角色,但对于第二个任务,您可以重用第一个任务的 IAM 角色。只要使用相同的 S3 存储桶和文件夹,就可以重复使用 IAM 角色。

运行情绪和实体分析作业(控制台)

  1. 确保您位于创建Amazon Simple Storage Service (Amazon S3) 存储桶的同一区域。如果您位于其他区域,请在导航栏中,从中选择您在其中创建了 S3 存储桶的 AWS 区域区域选择器.

  2. 从打开 Amazon Comprehend 控制台https://console.aws.amazon.com/comprehend/

  3. 选择启动Amazon Comprehend.

  4. 在导航窗格中,选择分析作业.

  5. 请选择 Create job (创建任务)

  6. Job 设置部分中,执行以下操作:

    1. 对于 Name (名称),请输入 reviews-sentiment-analysis

    2. 适用于分析类型,选择情绪.

    3. 适用于语言,选择英语.

    4. 离开Job 加密设置为已禁用。

  7. 输入数据部分中,执行以下操作:

    1. 适用于数据源,选择My.

    2. 适用于S3 位置,选择浏览 S3,从存储桶列表中选择您的存储桶。

    3. 在您的 S3 存储桶中,对于对象,选择您的inputfolder。

    4. input文件夹,选择示例数据集amazon-reviews.csv选择.

    5. 适用于输入格式,选择每行一个文档.

  8. 输出数据部分中,执行以下操作:

    1. 适用于S3 位置,选择浏览 S3,从存储桶列表中选择您的存储桶。

    2. 在您的 S3 存储桶中,对于对象,选择output文件夹,然后选择选择.

    3. 离开加密关闭。

  9. 访问权限部分中,执行以下操作:

    1. 适用于IAM 角色,选择创建 IAM 角色.

    2. 适用于访问权限,选择输入和输出 S3 存储桶.

    3. 适用于名称后缀,输入comprehend-access-role. 此角色提供对 Amazon S3 存储桶的访问。

  10. 请选择 Create job (创建任务)

  11. 重复步骤 1-10 以创建实体分析作业。进行以下更改:

    1. InJob 设置,对于名称,输入reviews-entities-analysis.

    2. InJob 设置,对于分析类型,选择实体.

    3. In访问权限,选择使用现有 IAM 角色. 适用于Role name (角色名称),选择AmazonComprehendServiceRole-comprehend-access-role(这与您为情绪作业创建的角色相同)。

您将start-sentiment-detection-jobstart-entities-detection-job用于运行情绪和实体分析作业的命令。运行每个命令后,AWS CLI显示一个 JSON 对象JobId值,允许您访问有关作业的详细信息,包括输出 S3 位置。

运行情绪和实体分析作业 (AWS CLI)

  1. 在中运行以下命令以启动情绪分析作业AWS CLI. Replacearn:aws:iam::123456789012:role/comprehend-access-role使用您之前复制到文本编辑器的 IAM 角色 ARN。如果你的默认AWS CLI区域与您创建 Amazon S3 存储桶的区域不同,请在其中包括--region参数和替换us-east-1使用您的存储桶所在的区域。

    aws comprehend start-sentiment-detection-job --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/input/ --output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/output/ --data-access-role-arn arn:aws:iam::123456789012:role/comprehend-access-role --job-name reviews-sentiment-analysis --language-code en [--region us-east-1]
  2. 在提交作业后,将JobId并将其保存到文本编辑器。您将需要JobId从分析作业中查找输出文件。

  3. 通过运行以下命令来启动实体分析作业。

    aws comprehend start-entities-detection-job --input-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/input/ --output-data-config S3Uri=s3://DOC-EXAMPLE-BUCKET/output/ --data-access-role-arn arn:aws:iam::123456789012:role/comprehend-access-role --job-name reviews-entities-analysis --language-code en [--region us-east-1]
  4. 在提交作业后,将JobId并将其保存到文本编辑器。

  5. 检查作业的状态。您可以通过跟踪作业的进度来查看作业的进度JobId.

    要跟踪情绪分析作业的进度,请运行以下命令。Replacesentiment-job-idJobId你在运行情绪分析后复制的。

    aws comprehend describe-sentiment-detection-job --job-id sentiment-job-id

    要跟踪实体分析作业,请运行以下命令。Replaceentities-job-idJobId在运行实体分析后复制的。

    aws comprehend describe-entities-detection-job --job-id entities-job-id

    这需要几分钟时间JobStatus显示为COMPLETED.

您已完成情绪和实体分析作业。在继续下一步之前,应完成这两项作业。完成作业可能需要几分钟时间。