Etapa 1: adicionando documentos ao Amazon S3 - Amazon Comprehend

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Etapa 1: adicionando documentos ao Amazon S3

Antes de iniciar os trabalhos de análise do Amazon Comprehend, você precisa armazenar um conjunto de dados de amostra de avaliações de clientes no Amazon Simple Storage Service (Amazon S3). O Amazon S3 hospeda seus dados em contêineres chamados buckets. O Amazon Comprehend pode analisar documentos armazenados em um bucket e enviar os resultados da análise para um bucket. Nesta etapa, você cria um bucket do S3, cria pastas de entrada e saída no bucket e carrega um conjunto de dados de amostra para o bucket.

Pré-requisitos

Antes de começar, revise o Tutorial: analisando insights de avaliações de clientes com o Amazon Comprehend e conclua os pré-requisitos.

Baixe os dados de amostra

O conjunto de dados de amostra a seguir contém avaliações da Amazon retiradas do conjunto de dados maior "Amazon reviews - Full", que foi publicado com o artigo "Character-level Convolutional Networks for Text Classification" (Xiang Zhang et al., 2015). Baixe o conjunto de dados para o computador.

Obter os dados de amostra
  1. Baixe o arquivo zip tutorial-reviews-data.zip para o seu computador.

  2. Extraia o arquivo .zip em seu computador local. Há dois arquivos. O arquivo THIRD_PARTY_LICENSES.txt é a licença de código aberto para o conjunto de dados publicado por Xiang Zhang et al. O arquivo amazon-reviews.csv é o conjunto de dados que você analisa no tutorial.

Criar um bucket do Amazon S3

Depois de baixar o conjunto de dados de amostra, crie um bucket do Amazon S3 para armazenar seus dados de entrada e saída. Você pode criar um bucket do S3 usando o console do Amazon S3 ou o AWS Command Line Interface (AWS CLI).

No console do Amazon S3, você cria um bucket com um nome exclusivo em todos os AWS.

Para criar um bucket do S3 (console)
  1. Faça logon no AWS Management Console e abra o console do Amazon S3 em https://console.aws.amazon.com/s3/.

  2. Em Buckets, escolha Criar bucket.

  3. Em Nome do bucket, insira um nome globalmente exclusivo que descreva a finalidade do bucket.

  4. Para Região, escolha a região da AWS onde você deseja criar o bucket. A região que você escolher deve oferecer suporte ao Amazon Comprehend. Para reduzir a latência, escolha a Região AWS mais próxima da sua localização geográfica que seja compatível com o Amazon Comprehend. Para obter uma lista das regiões que são compatíveis com o Amazon Comprehend, consulte a Tabela de regiões no Guia global de infraestrutura.

  5. Deixe as configurações padrão para Propriedade do objeto, Configurações de bucket para bloquear acesso público, Versionamento de bucket e Tags.

  6. Em Criptografia padrão, escolha Desabilitar.

    dica

    Embora este tutorial não use criptografia, talvez você queira usar criptografia ao analisar dados importantes. Para end-to-end criptografia, você pode criptografar seus dados em repouso no bucket e também ao executar trabalhos de análise. Para obter mais informações sobre criptografia com o AWS, consulte O que é o AWS Key Management Service? no Guia do desenvolvedor do AWS Key Management Service.

  7. Revise as configurações do bucket e escolha Criar bucket.

Depois de abrir o AWS CLI, você executa o comando create-bucket para criar um bucket que armazenará os dados de entrada e saída.

Como criar um bucket do Amazon S3 (AWS CLI)
  1. Para criar seu bucket, execute o comando a seguir no AWS CLI. Substitua DOC-EXAMPLE-BUCKET por um nome para o bucket que seja exclusivo em toda AWS.

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET

    Por padrão, o comando create-bucket cria um bucket na Região us-east-1 da AWS. Para criar um bucket em uma Região da AWS diferente de us-east-1, adicione o parâmetro LocationConstraint para especificar sua Região. Por exemplo, o comando a seguir cria um bucket na Região us-west-2.

    aws s3api create-bucket --bucket DOC-EXAMPLE-BUCKET --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

    Observe que somente algumas regiões oferecem suporte ao Amazon Comprehend. Para obter uma lista das regiões que são compatíveis com o Amazon Comprehend, consulte a Tabela de regiões no Guia global de infraestrutura.

  2. Para garantir que o bucket foi criado com êxito, execute o comando a seguir. O comando lista todos os buckets do S3 associados à sua conta.

    aws s3 ls

(Somente console) crie pastas

Depois, crie duas pastas no seu bucket do S3. A primeira pasta é para seus dados de entrada. A segunda pasta é para onde o Amazon Comprehend envia os resultados da análise. Se você usa o console do Amazon S3, você precisa criar as pastas manualmente. Se você usar o AWS CLI, poderá criar pastas ao carregar o conjunto de dados de amostra ou executar um trabalho de análise. Por esse motivo, fornecemos um procedimento para criar pastas somente para usuários do console. Se você estiver usando o AWS CLI, você criará pastas dentro de Carregue os dados de entrada e dentro de Etapa 3: executando trabalhos de análise em documentos no Amazon S3.

Para criar pastas em seu bucket do S3 (console)
  1. Abra o console do Amazon S3 em https://console.aws.amazon.com/s3/.

  2. Em Buckets, escolha seu bucket na lista de buckets.

  3. Na guia Visão geral, escolha Criar pasta.

  4. Para o novo nome da pasta, insira input.

  5. Para as configurações de criptografia, escolha (Nenhuma (use as configurações do bucket).

  6. Escolha Salvar.

  7. Repita as etapas de 3 a 6 para criar outra pasta para a saída dos trabalhos de análise, mas na etapa 4, insira o output do nome da nova pasta.

Carregue os dados de entrada

Agora que você tem um bucket, carregue o conjunto de dados de amostra amazon-reviews.csv. Você pode carregar dados para buckets do S3 com o console Amazon S3 ou o AWS CLI.

No cosole do Amazon S3, carregue o arquivo do conjunto de dados de amostra para a pasta de entrada.

Par carregar os documentos de amostra (console)
  1. Abra o console do Amazon S3 em https://console.aws.amazon.com/s3/.

  2. Em Buckets, escolha seu bucket na lista de buckets.

  3. Escolha a pasta input e, em seguida, escolha Upload.

  4. Escolha Adicionar arquivos e, em seguida, escolha o arquivo amazon-reviews.csv no seu computador.

  5. Deixe as outras configurações nos valores padrão.

  6. Escolha Carregar.

Crie uma pasta de entrada em seu bucket do S3 e carregue o arquivo do conjunto de dados na nova pasta com o comando cp.

Par carregar os documentos de amostra (AWS CLI)
  1. Para fazer o upload do arquivo amazon-reviews.csv em uma nova pasta no seu bucket, execute o comando AWS CLI a seguir. Substitua DOC-EXAMPLE-BUCKET pelo nome do seu bucket. Ao adicionar o caminho do /input/ no final, o Amazon S3 cria automaticamente uma nova pasta chamada input em seu bucket e carrega o arquivo do conjunto de dados nessa pasta.

    aws s3 cp amazon-reviews.csv s3://DOC-EXAMPLE-BUCKET/input/
  2. Para garantir que o arquivo foi carregado com êxito, execute o comando a seguir. O comando lista o conteúdo da pasta input do seu bucket.

    aws s3 ls s3://DOC-EXAMPLE-BUCKET/input/

Agora, você tem um bucket do S3 com o arquivo amazon-reviews.csv em uma pasta chamada input. Se você usou o console, você também tem uma pasta output no bucket. Se você usou o AWS CLI, você criará a pasta de saída ao executar os trabalhos de análise do Amazon Comprehend.