第 1 步:将文档添加到 Amazon S3 - Amazon Comprehend

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

第 1 步:将文档添加到 Amazon S3

在 Amazon Comprehend ple Storage S3 分析作业之前,您需要在 Amazon Simple Storage S3 中存储客户评论样本数据集。Amazon S3 将您的数据托管在称为存储桶的容器中。Amazon Comprehend 可以分析存储在存储桶中的文档,并将分析结果发送到存储桶。在此步骤中,您将创建一个 S3 存储桶,在该存储桶中创建输入和输出文件夹,并将示例数据集上载到该存储桶。

先决条件

在开始之前,请查看教程:使用亚马逊 Comprehend 分析来自买家评论的见解并完成先决条件。

下载示例数据

以下示例数据集包含取自较大数据集 “亚马逊评论-完整” 的亚马逊评论,该数据集与文章 “用于文本分类的字符级卷积网络” 一起发布(Xiang Zhang 等人,2015 年)。将数据集下载到计算机上。

获取样本数据

  1. 下载 zip 文件tutorial-reviews-data.zip到计算机上。

  2. 将 zip 文件提取到计算机上。有两个文件。这个文件THIRD_PARTY_LICENSES.txt是 Xiang Zhang 等人发布的数据集的开源许可证。这个文件amazon-reviews.csv是您在教程中分析的数据集。

创建 Amazon S3 存储桶

下载示例数据集后,创建 Amazon S3 存储桶以存储输入和输出数据。您可以使用 Amazon S3 控制台或AWS Command Line Interface(AWS CLI)。

在 Amazon S3 控制台中,您可以使用在 AWS mazon S3 控制台中唯一名称的存储桶。

创建 S3 存储桶(控制台)

  1. 登录到 AWS Management Console,然后通过以下网址打开 Simple Storage Service(Amazon S3)控制台:https://console.aws.amazon.com/s3/

  2. In存储桶,选择创建存储桶.

  3. 适用于Bucket name,输入描述存储桶的名称。

  4. 适用于区域,选择要在其中创建存储桶的 AWS 区域。您选择的地区必须支持Amazon Comprehend。要减少延迟,请选择距离您的地理位置最近、受 Amazon Comprehend 支持的 AWS 区域。有关支持 Amazon Confige 的区域的列表,请参阅区域表中的全球基础设施指南.

  5. 对于,保留默认设置对象所有权阻止公有访问的存储桶设置存储桶版本控制, 和标签.

  6. 适用于Default encryption (默认加密),选择禁用.

    提示

    虽然本教程不使用加密,但您可能希望在分析重要数据时使用加密。适用于 end-to-end 加密,您可以加密存储桶中的静态数据,也可以在运行分析作业时对数据进行加密。有关使用 AWS 加密的更多信息,请参阅是什么AWS Key Management Service?中的AWS Key Management Service开发人员指南.

  7. 检查您的存储桶配置,然后选择创建存储桶.

打开后AWS CLI,您运行create-bucket命令创建存储输入和输出数据的存储桶。

创建 Amazon S3 存储桶 (AWS CLI)

  1. 要创建存储桶,请在AWS CLI. ReplaceDOC-EXAMPLE-BUCKET存储桶的名称在所有 AWS 中都是唯一的。

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET

    默认情况下,create-bucket命令在us-east-1AWS 区域。在非 AWS 区域中创建存储桶us-east-1,添加LocationConstraint参数来指定您的区域。例如,以下命令在us-west-2区域。

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

    请注意,只有某些地区支持Amazon Comprehend。有关支持 Amazon Confige 的区域的列表,请参阅区域表中的全球基础设施指南.

  2. 要确保成功创建存储桶,请运行以下命令。该命令列出与您的账户关联的所有 S3 存储桶。

    aws s3 ls

(仅限控制台)创建文件夹

接下来,在 S3 存储桶中创建两个文件夹。第一个文件夹用于存放您的输入数据。第二个文件夹是 Amazon Comprehend 发送分析结果的地方。如果您使用 Amazon S3 控制台,则必须手动创建文件夹。如果您将AWS CLI,则可以在上传示例数据集或运行分析作业时创建文件夹。因此,我们提供了仅针对控制台用户创建文件夹的过程。如果您使用的是 AWS CLI,则需要在中创建文件夹上传数据然后在第 3 步:在 Amazon S3 中的文档上运行分析作业.

在 S3 存储桶中创建文件夹(控制台)

  1. 通过以下网址打开 Simple Storage Service(Amazon S3)控制台:https://console.aws.amazon.com/s3/

  2. In存储桶,从存储桶列表中选择您的存储桶。

  3. 概述选项卡,选择创建文件夹.

  4. 对于新文件夹名称,输入input.

  5. 对于加密设置,选择无(使用存储桶设置).

  6. 选择Save(保存)。

  7. 重复步骤 3 到 6,为分析作业的输出创建另一个文件夹,但在步骤 4 中,输入新的文件夹名称output.

上传数据

现在您有一个存储桶,请上传示例数据集。amazon-reviews.csv. 您可以使用 Amazon S3 控制台或AWS CLI.

在 Amazon S3 控制台中,将示例数据集文件上载到输入文件夹。

上传示例文档(控制台)

  1. 通过以下网址打开 Simple Storage Service(Amazon S3)控制台:https://console.aws.amazon.com/s3/

  2. In存储桶,从存储桶列表中选择您的存储桶。

  3. 选择input文件夹,然后选择上传.

  4. 选择添加文件然后选择amazon-reviews.csv您的计算机上的文件。

  5. 选择 Next(下一步)。

  6. 对于,保留默认设置管理用户其他 AWS 账户的访问权限, 和管理公有权限. 选择 Next(下一步)。

  7. 适用于存储类别,选择标准.

  8. 适用于加密,选择None(无).

  9. 离开Metadata标记空白。

  10. 选择下一步并检查配置,然后选择上传.

在您的 S3 存储桶中创建一个输入文件夹,然后将数据集文件上传到新文件夹cp命令。

要上传样本文档 (AWS CLI)

  1. 上传amazon-reviews.csv文件到您的存储桶中的新文件夹,请运行以下命令AWS CLI命令。ReplaceDOC-EXAMPLE-BUCKET替换为您的存储桶的名称。通过添加路径/input/最后,Amazon S3 会自动创建一个名为input然后将数据集文件上传到该文件夹。

    aws s3 cp amazon-reviews.csv s3://DOC-EXAMPLE-BUCKET/input/
  2. 要确保成功上载文件,请运行以下命令。该命令列出您的存储桶的内容inputfolder。

    aws s3 ls s3://DOC-EXAMPLE-BUCKET/input/

现在,您有一个带有amazon-reviews.csv文件位于名为的文件夹input. 如果您使用控制台,则还有output存储桶中的文件夹。如果您使用AWS CLI,您将在运行 Amazon Comprehend 分析作业时创建输出文件夹。