Étape 1 : ajout de documents à Amazon S3 - Amazon Comprehend

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Étape 1 : ajout de documents à Amazon S3

Avant de commencer les tâches d'analyse Amazon Comprehend, vous devez stocker un exemple de jeu de données d'avis clients dans Amazon Simple Storage Service (Amazon S3). Amazon S3 héberge vos données dans des conteneurs appelés buckets. Amazon Comprehend peut analyser les documents stockés dans un compartiment et envoyer les résultats de l'analyse à un compartiment. Au cours de cette étape, vous allez créer un compartiment S3, créer des dossiers d'entrée et de sortie dans le compartiment et télécharger un exemple de jeu de données dans le compartiment.

Prérequis

Avant de commencer, passez en revue Tutoriel : Analyse des informations issues des avis clients avec Amazon Comprehend et complétez les prérequis.

Télécharger des exemples de données

L'exemple de jeu de données suivant contient des critiques Amazon extraites du jeu de données plus vaste « Amazon reviews - Full », publié avec l'article « Character-level Convolutional Networks for Text Classification » (Xiang Zhang et al., 2015). Téléchargez le jeu de données sur votre ordinateur.

Pour obtenir les exemples de données
  1. Téléchargez le fichier zip tutorial-reviews-data.zip sur votre ordinateur.

  2. Décompressez le fichier zip sur votre ordinateur. Il y a deux fichiers. Le fichier THIRD_PARTY_LICENSES.txt est la licence open source pour le jeu de données publié par Xiang Zhang et al. Le fichier amazon-reviews.csv est le jeu de données que vous analysez dans le didacticiel.

Créer un compartiment Amazon S3

Après avoir téléchargé l'exemple de jeu de données, créez un compartiment Amazon S3 pour stocker vos données d'entrée et de sortie. Vous pouvez créer un compartiment S3 à l'aide de la console Amazon S3 ou du AWS Command Line Interface (AWS CLI).

Dans la console Amazon S3, vous créez un compartiment dont le nom est unique dans tous les compartiments AWS.

Pour créer un compartiment S3 (console)
  1. Connectez-vous à la console Amazon S3 AWS Management Console et ouvrez-la à l'adresse https://console.aws.amazon.com/s3/.

  2. Dans Buckets, choisissez Create bucket.

  3. Dans le champ Nom du compartiment, entrez un nom unique au monde qui décrit l'objectif du compartiment.

  4. Pour Région, choisissez la AWS région dans laquelle vous souhaitez créer le bucket. La région que vous choisissez doit prendre en charge Amazon Comprehend. Pour réduire le temps de latence, choisissez la AWS région la plus proche de votre situation géographique prise en charge par Amazon Comprehend. Pour obtenir la liste des régions qui prennent en charge Amazon Comprehend, consultez le tableau des régions du Guide mondial de l'infrastructure.

  5. Conservez les paramètres par défaut pour la propriété de l'objet, les paramètres du compartiment pour le blocage de l'accès public, le versionnement des compartiments et les balises.

  6. Pour le chiffrement par défaut, choisissez Désactiver.

    Astuce

    Bien que ce didacticiel n'utilise pas le chiffrement, vous souhaiterez peut-être utiliser le chiffrement lors de l'analyse de données importantes. Pour end-to-end le chiffrement, vous pouvez chiffrer vos données au repos dans le compartiment et également lorsque vous exécutez des tâches d'analyse. Pour plus d'informations sur le chiffrement avec AWS, voir Qu'est-ce que c'est AWS Key Management Service ? dans le Guide AWS Key Management Service du développeur.

  7. Passez en revue les configurations de votre compartiment, puis choisissez Create bucket.

Après avoir ouvert le AWS CLI, vous exécutez la create-bucket commande pour créer un compartiment qui stockera les données d'entrée et de sortie.

Pour créer un compartiment Amazon S3 (AWS CLI)
  1. Pour créer votre bucket, exécutez la commande suivante dans le AWS CLI. Remplacez amzn-s3-demo-bucket par un nom unique pour le bucket dans tous. AWS

    aws s3api create-bucket --bucket amzn-s3-demo-bucket

    Par défaut, la create-bucket commande crée un compartiment dans la us-east-1 AWS région. Pour créer un compartiment dans un Région AWS autre queus-east-1, ajoutez le LocationConstraint paramètre pour spécifier votre région. Par exemple, la commande suivante crée un compartiment dans la us-west-2 région.

    aws s3api create-bucket --bucket amzn-s3-demo-bucket --region us-west-2 --create-bucket-configuration LocationConstraint=us-west-2

    Notez que seules certaines régions prennent en charge Amazon Comprehend. Pour obtenir la liste des régions qui prennent en charge Amazon Comprehend, consultez le tableau des régions du Guide mondial de l'infrastructure.

  2. Pour vous assurer que votre bucket a bien été créé, exécutez la commande suivante. La commande répertorie tous les compartiments S3 associés à votre compte.

    aws s3 ls

(Console uniquement) créer des dossiers

Créez ensuite deux dossiers dans votre compartiment S3. Le premier dossier est destiné à vos données d'entrée. Le deuxième dossier est l'endroit où Amazon Comprehend envoie les résultats de l'analyse. Si vous utilisez la console Amazon S3, vous devez créer les dossiers manuellement. Si vous utilisez le AWS CLI, vous pouvez créer des dossiers lorsque vous chargez l'exemple de jeu de données ou que vous exécutez une tâche d'analyse. C'est pourquoi nous proposons une procédure permettant de créer des dossiers uniquement pour les utilisateurs de la console. Si vous utilisez le AWS CLI, vous allez créer des dossiers dans Téléchargez les données d'entrée et dansÉtape 3 : Exécution de tâches d'analyse sur des documents dans Amazon S3.

Pour créer des dossiers dans votre compartiment S3 (console)
  1. Ouvrez la console Amazon S3 à l'adresse https://console.aws.amazon.com/s3/.

  2. Dans Buckets, choisissez votre bucket dans la liste des buckets.

  3. Dans l'onglet Vue d'ensemble, choisissez Créer un dossier.

  4. Pour le nouveau nom du dossier, entrezinput.

  5. Pour les paramètres de chiffrement, choisissez Aucun (Utiliser les paramètres du bucket).

  6. Choisissez Save (Enregistrer).

  7. Répétez les étapes 3 à 6 pour créer un autre dossier pour la sortie des tâches d'analyse, mais à l'étape 4, entrez le nouveau nom du dossieroutput.

Téléchargez les données d'entrée

Maintenant que vous avez un bucket, chargez l'exemple de jeu de donnéesamazon-reviews.csv. Vous pouvez télécharger des données dans des compartiments S3 à l'aide de la console Amazon S3 ou du AWS CLI.

Dans la console Amazon S3, chargez le fichier d'exemple de jeu de données dans le dossier d'entrée.

Pour télécharger les exemples de documents (console)
  1. Ouvrez la console Amazon S3 à l'adresse https://console.aws.amazon.com/s3/.

  2. Dans Buckets, choisissez votre bucket dans la liste des buckets.

  3. Choisissez le input dossier, puis choisissez Upload.

  4. Choisissez Ajouter des fichiers, puis sélectionnez le amazon-reviews.csv fichier sur votre ordinateur.

  5. Conservez les valeurs par défaut des autres paramètres.

  6. Sélectionnez Charger.

Créez un dossier d'entrée dans votre compartiment S3 et téléchargez le fichier du jeu de données dans le nouveau dossier à l'aide de la cp commande.

Pour télécharger les exemples de documents (AWS CLI)
  1. Pour télécharger le amazon-reviews.csv fichier dans un nouveau dossier de votre bucket, exécutez la AWS CLI commande suivante. Remplacez amzn-s3-demo-bucket par le nom de votre bucket. En ajoutant le chemin /input/ à la fin, Amazon S3 crée automatiquement un nouveau dossier appelé input dans votre compartiment et télécharge le fichier du jeu de données dans ce dossier.

    aws s3 cp amazon-reviews.csv s3://amzn-s3-demo-bucket/input/
  2. Pour vous assurer que votre fichier a bien été chargé, exécutez la commande suivante. La commande répertorie le contenu du input dossier de votre bucket.

    aws s3 ls s3://amzn-s3-demo-bucket/input/

À présent, vous disposez d'un compartiment S3 contenant le amazon-reviews.csv fichier dans un dossier appeléinput. Si vous avez utilisé la console, le compartiment contient également un output dossier. Si vous avez utilisé le AWS CLI, vous créerez le dossier de sortie lors de l'exécution des tâches d'analyse Amazon Comprehend.