步骤 1:向 Amazon S3 添加文档 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

步骤 1:向 Amazon S3 添加文档

在开始 Amazon Comprehend 分析任务之前,您需要在 Amazon Simple Storage Service (Amazon S3) 中存储客户评论的示例数据集。Amazon S3 将您的数据托管在名为存储桶的容器中。Amazon Comprehend 可以分析存储在存储桶中的文档,并将分析结果发送到存储桶。在此步骤中,您将创建一个 S3 存储桶,在该存储桶中创建输入和输出文件夹,并将示例数据集上传到该存储桶。

先决条件

在开始之前,请查看 教程:使用 Amazon Comprehend 分析来自客户评论的见解 并完成先决条件。

下载示例数据

以下示例数据集包含来自较大数据集“Amazon 评论——完整”的 Amazon 评论,该数据集与文章《用于文本分类的字符级卷积网络》(Xiang Zhang等人,2015年)一起发表。将数据集下载到您的计算机中。

获取示例数据
  1. 将 zip 文件 tutorial-reviews-data.zip 下载到您的计算机上。

  2. 将 zip 文件提取到您的计算机上。有两个文件。文件 THIRD_PARTY_LICENSES.txt 是 Xiang Zhang 等人发布的数据集的开源许可证。文件 amazon-reviews.csv 是您在教程中分析的数据集。

创建 Amazon S3 存储桶

下载示例数据集后,创建一个 Amazon S3 存储桶以存储您的输入和输出数据。您可以使用 Amazon S3 控制台或 AWS Command Line Interface (AWS CLI) 创建 S3 存储桶。

在 Amazon S3 控制台中,您可以创建一个存储桶,其名称在所有 AWS中都是唯一的。

创建 S3 存储桶(控制台)
  1. 登录 AWS Management Console 并打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/

  2. 存储桶中,选择创建存储桶

  3. 对于存储桶名称,请输入全局唯一名称,以描述存储桶用途。

  4. 对于区域,选择要在其中创建存储桶的 AWS 区域。您选择的区域必须支持 Amazon Comprehend。要减少延迟,请选择 Amazon Comprehend 支持的离您的地理位置最近的 AWS 区域。有关支持 Amazon Comprehend 的区域列表,请参阅《全球基础设施指南》中的区域表

  5. 保留对象所有权阻止公共访问的存储桶设置存储桶版本控制标签的默认设置。

  6. 对于默认加密,请选择禁用

    提示

    虽然本教程不使用加密,但您可能需要在分析重要数据时使用加密。要进行 end-to-end 加密,您可以加密存储桶中的静态数据,也可以在运行分析任务时对数据进行加密。有关使用加密的更多信息 AWS,请参阅什么是 AWS Key Management Service? 在《AWS Key Management Service 开发人员指南》中。

  7. 查看您的存储桶配置,然后选择创建存储桶

打开后 AWS CLI,您可以运行create-bucket命令来创建用于存储输入和输出数据的存储桶。

创建 Amazon S3 存储桶 (AWS CLI)
  1. 请在 AWS CLI中运行以下命令来创建存储桶。将 amzn-s3-demo-bucket 替换为所有存储桶中唯一的名称。 AWS

    aws s3api create-bucket --bucket amzn-s3-demo-bucket

    默认情况下,该create-bucket命令在us-east-1 AWS 区域中创建存储桶。要在以 us-east-1 外的 AWS 区域 中创建存储桶,请添加 LocationConstraint 参数以指定您的区域。例如,以下命令在 us-west-2 区域中创建一个存储桶。

    aws s3api create-bucket --bucket amzn-s3-demo-bucket --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

    请注意,只有某些区域支持 Amazon Comprehend。有关支持 Amazon Comprehend 的区域列表,请参阅《全球基础设施指南》中的区域表

  2. 要确保成功创建存储桶,请运行以下命令。该命令列出与您的账户关联的所有 S3 存储桶。

    aws s3 ls

(仅限控制台)创建文件夹

接下来,在您的 S3 存储桶中创建两个文件夹。第一个文件夹用于存储输入数据。第二个文件夹是 Amazon Comprehend 发送分析结果的地方。如果您使用 Amazon S3 控制台,则必须手动创建文件夹。如果您使用 AWS CLI,则可以在上传示例数据集或运行分析作业时创建文件夹。因此,我们提供了仅为控制台用户创建文件夹的程序。如果您使用的是 AWS CLI,则将在中上传输入数据和中创建文件夹步骤 3:在 Amazon S3 中对文档运行分析任务

在 S3 存储桶中创建文件夹(控制台)
  1. 打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/

  2. 存储桶中,从存储桶列表中选择您的存储桶。

  3. 概述选项卡中,选择创建文件夹

  4. 对于新文件夹名称,输入 input

  5. 对于加密设置,请选择无(使用存储桶设置)

  6. 选择保存

  7. 重复步骤 3 到 6,为分析任务的输出创建另一个文件夹,但在步骤 4 中,输入新的文件夹名称 output

上传输入数据

现在您已经有了存储桶,请上传示例数据集 amazon-reviews.csv。您可以使用 Amazon S3 控制台或 AWS CLI将数据上传到 S3 存储桶。

在 Amazon S3 控制台中,将示例数据集文件上传到输入文件夹。

上传示例文档(控制台)
  1. 打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/

  2. 存储桶中,从存储桶列表中选择您的存储桶。

  3. 选择 input 文件夹,然后选择上传

  4. 选择添加文件,然后在计算机上选择 amazon-reviews.csv 文件。

  5. 将其他设置保留为默认值。

  6. 选择上传

在 S3 存储桶中创建输入文件夹,然后使用 cp 命令将数据集文件上传到新文件夹。

上传示例文档 (AWS CLI)
  1. 要将amazon-reviews.csv文件上传到存储桶中的新文件夹,请运行以下 AWS CLI 命令。将 amzn-s3-demo-bucket 替换为存储桶的名称。通过在末尾添加路径 /input/,Amazon S3 会自动在您的存储桶中创建一个名为 input 的新文件夹,并将数据集文件上传到该文件夹。

    aws s3 cp amazon-reviews.csv s3://amzn-s3-demo-bucket/input/
  2. 要确保成功上传文件,请运行以下命令。该命令列出了您的存储桶 input 文件夹的内容。

    aws s3 ls s3://amzn-s3-demo-bucket/input/

现在,您有一个 S3 存储桶,其中 amazon-reviews.csv 文件位于名为 input 的文件夹中。如果您使用控制台,则存储桶中还有一个 output 文件夹。如果您使用了 AWS CLI,则将在运行 Amazon Comprehend 分析任务时创建输出文件夹。