Configurazione di un crawler per le notifiche degli eventi di Amazon S3 per un target Amazon S3 - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Configurazione di un crawler per le notifiche degli eventi di Amazon S3 per un target Amazon S3

Segui questi passaggi per configurare un crawler per le notifiche degli eventi di Amazon S3 per un target Amazon S3 utilizzando o. AWS Management Console AWS CLI

AWS Management Console
  1. Accedi a AWS Management Console e apri la console all'indirizzo. GuardDuty https://console.aws.amazon.com/guardduty/

  2. Imposta le proprietà del crawler. Per ulteriori informazioni, consulta Impostazione delle opzioni di configurazione del crawler su AWS Glue console.

  3. Nella sezione Configurazione dell'origine dati, ti viene chiesto Se i tuoi dati sono già mappati su AWS Glue tavoli?

    Per impostazione predefinita, la risposta Not yet (Non ancora) è già selezionata. Lascia questa impostazione come predefinita poiché utilizzi un'origine dati Amazon S3 e i dati non sono già mappati su AWS Glue tabelle.

  4. Nella sezione Data sources (Origini dei dati), scegli Add a data source (Aggiungi un'origine dei dati).

    Data source configuration interface with options to select or add data sources for crawling.
  5. Nella modalità Add data source (Aggiungi origine dei dati), configura l'origine dati di Amazon S3:

    • Data source (Origine dei dati): per impostazione predefinita, è selezionato Amazon S3.

    • Network connection (Connessione di rete) (Facoltativo): seleziona Add new connection (Aggiungi una nuova connessione).

    • Location of Amazon S3 data (Posizione dei dati Amazon S3): per impostazione predefinita, è selezionata l'opzione In this account (In questo account).

    • Amazon S3 path (Percorso Amazon S3): specifica il percorso Amazon S3 in cui effettuare il crawling in cartelle e file.

    • Subsequent crawler runs (Esecuzione successiva del crawler): seleziona Crawl based on events (Crawling in base agli eventi) per utilizzare le notifiche degli eventi di Amazon S3 per il crawler.

    • Includi SQS ARN: specifica i parametri del data store, inclusi quelli validi SQSARN. Ad esempio, arn:aws:sqs:region:account:sqs.

    • Includi lettera morta SQS ARN (facoltativo): specifica una lettera non valida per Amazon. SQS ARN Ad esempio, arn:aws:sqs:region:account:deadLetterQueue.

    • Scegli Add an Amazon S3 data source (Aggiungi un'origine dei dati Amazon S3).

    Add data source dialog for S3, showing options for network connection and crawl settings.
AWS CLI

Di seguito è riportato un esempio di AWS CLI chiamata Amazon S3 per configurare un crawler per utilizzare le notifiche di eventi per eseguire la scansione di un bucket di destinazione Amazon S3.

Create Crawler: aws glue update-crawler \ --name myCrawler \ --recrawl-policy RecrawlBehavior=CRAWL_EVENT_MODE \ --schema-change-policy UpdateBehavior=UPDATE_IN_DATABASE,DeleteBehavior=LOG --targets '{"S3Targets":[{"Path":"s3://amzn-s3-demo-bucket/", "EventQueueArn": "arn:aws:sqs:us-east-1:012345678910:MyQueue"}]}'