本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
步骤 1:向 Amazon S3 添加文档
在开始 Amazon Comprehend 分析任务之前,您需要在 Amazon Simple Storage Service (Amazon S3) 中存储客户评论的示例数据集。Amazon S3 将您的数据托管在名为存储桶的容器中。Amazon Comprehend 可以分析存储在存储桶中的文档,并将分析结果发送到存储桶。在此步骤中,您将创建一个 S3 存储桶,在该存储桶中创建输入和输出文件夹,并将示例数据集上传到该存储桶。
先决条件
在开始之前,请查看 教程:使用 Amazon Comprehend 分析来自客户评论的见解 并完成先决条件。
下载示例数据
以下示例数据集包含来自较大数据集“Amazon 评论——完整”的 Amazon 评论,该数据集与文章《用于文本分类的字符级卷积网络》(Xiang Zhang等人,2015年)一起发表。将数据集下载到您的计算机中。
获取示例数据
-
将 zip 文件 tutorial-reviews-data.zip 下载到您的计算机上。
-
将 zip 文件提取到您的计算机上。有两个文件。文件
THIRD_PARTY_LICENSES.txt
是 Xiang Zhang 等人发布的数据集的开源许可证。文件amazon-reviews.csv
是您在教程中分析的数据集。
创建 Amazon S3 存储桶
下载示例数据集后,创建一个 Amazon S3 存储桶以存储您的输入和输出数据。您可以使用 Amazon S3 控制台或 AWS Command Line Interface (AWS CLI) 创建 S3 存储桶。
在 Amazon S3 控制台中,您可以创建一个存储桶,其名称在所有 AWS中都是唯一的。
创建 S3 存储桶(控制台)
登录 AWS Management Console 并打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/
。 -
在存储桶中,选择创建存储桶。
-
对于存储桶名称,请输入全局唯一名称,以描述存储桶用途。
-
对于区域,选择要在其中创建存储桶的 AWS 区域。您选择的区域必须支持 Amazon Comprehend。要减少延迟,请选择 Amazon Comprehend 支持的离您的地理位置最近的 AWS 区域。有关支持 Amazon Comprehend 的区域列表,请参阅《全球基础设施指南》中的区域表
。 -
保留对象所有权、阻止公共访问的存储桶设置、存储桶版本控制和标签的默认设置。
-
对于默认加密,请选择禁用。
提示
虽然本教程不使用加密,但您可能需要在分析重要数据时使用加密。要进行 end-to-end 加密,您可以加密存储桶中的静态数据,也可以在运行分析任务时对数据进行加密。有关使用加密的更多信息 AWS,请参阅什么是 AWS Key Management Service? 在《AWS Key Management Service 开发人员指南》中。
-
查看您的存储桶配置,然后选择创建存储桶。
打开后 AWS CLI,您可以运行create-bucket
命令来创建用于存储输入和输出数据的存储桶。
创建 Amazon S3 存储桶 (AWS CLI)
-
请在 AWS CLI中运行以下命令来创建存储桶。将 amzn-s3-demo-bucket 替换为所有存储桶中唯一的名称。 AWS
aws s3api create-bucket --bucket amzn-s3-demo-bucket
默认情况下,该
create-bucket
命令在us-east-1
AWS 区域中创建存储桶。要在以us-east-1
外的 AWS 区域 中创建存储桶,请添加LocationConstraint
参数以指定您的区域。例如,以下命令在us-west-2
区域中创建一个存储桶。aws s3api create-bucket --bucket amzn-s3-demo-bucket --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2
请注意,只有某些区域支持 Amazon Comprehend。有关支持 Amazon Comprehend 的区域列表,请参阅《全球基础设施指南》中的区域表
。 -
要确保成功创建存储桶,请运行以下命令。该命令列出与您的账户关联的所有 S3 存储桶。
aws s3 ls
(仅限控制台)创建文件夹
接下来,在您的 S3 存储桶中创建两个文件夹。第一个文件夹用于存储输入数据。第二个文件夹是 Amazon Comprehend 发送分析结果的地方。如果您使用 Amazon S3 控制台,则必须手动创建文件夹。如果您使用 AWS CLI,则可以在上传示例数据集或运行分析作业时创建文件夹。因此,我们提供了仅为控制台用户创建文件夹的程序。如果您使用的是 AWS CLI,则将在中上传输入数据和中创建文件夹步骤 3:在 Amazon S3 中对文档运行分析任务。
在 S3 存储桶中创建文件夹(控制台)
打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/
。 -
在存储桶中,从存储桶列表中选择您的存储桶。
-
在概述选项卡中,选择创建文件夹。
-
对于新文件夹名称,输入
input
。 -
对于加密设置,请选择无(使用存储桶设置)。
-
选择保存。
-
重复步骤 3 到 6,为分析任务的输出创建另一个文件夹,但在步骤 4 中,输入新的文件夹名称
output
。
上传输入数据
现在您已经有了存储桶,请上传示例数据集 amazon-reviews.csv
。您可以使用 Amazon S3 控制台或 AWS CLI将数据上传到 S3 存储桶。
在 Amazon S3 控制台中,将示例数据集文件上传到输入文件夹。
上传示例文档(控制台)
打开 Amazon S3 控制台,网址为https://console.aws.amazon.com/s3/
。 -
在存储桶中,从存储桶列表中选择您的存储桶。
-
选择
input
文件夹,然后选择上传。 -
选择添加文件,然后在计算机上选择
amazon-reviews.csv
文件。 -
将其他设置保留为默认值。
-
选择上传。
在 S3 存储桶中创建输入文件夹,然后使用 cp
命令将数据集文件上传到新文件夹。
上传示例文档 (AWS CLI)
-
要将
amazon-reviews.csv
文件上传到存储桶中的新文件夹,请运行以下 AWS CLI 命令。将 amzn-s3-demo-bucket 替换为存储桶的名称。通过在末尾添加路径/input/
,Amazon S3 会自动在您的存储桶中创建一个名为input
的新文件夹,并将数据集文件上传到该文件夹。aws s3 cp amazon-reviews.csv s3://amzn-s3-demo-bucket/input/
-
要确保成功上传文件,请运行以下命令。该命令列出了您的存储桶
input
文件夹的内容。aws s3 ls s3://amzn-s3-demo-bucket/input/
现在,您有一个 S3 存储桶,其中 amazon-reviews.csv
文件位于名为 input
的文件夹中。如果您使用控制台,则存储桶中还有一个 output
文件夹。如果您使用了 AWS CLI,则将在运行 Amazon Comprehend 分析任务时创建输出文件夹。