Verwenden Sie einen Crawler, um eine Tabelle hinzuzufügen - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie einen Crawler, um eine Tabelle hinzuzufügen

AWS Glue Crawler helfen dabei, das Schema für Datensätze zu ermitteln und sie als Tabellen im Datenkatalog zu registrieren. AWS Glue Die Crawler gehen Ihre Daten durch und bestimmen das Schema. Darüber hinaus können Crawler Partitionen erkennen und registrieren. Weitere Informationen finden Sie unter Definieren von Crawlern im AWS Glue -Entwicklerhandbuch. Tabellen aus Daten, die erfolgreich gecrawlt wurden, können von Athena abgefragt werden.

Anmerkung

Athena erkennt keine Ausschlussmuster, die Sie für einen AWS Glue Crawler angeben. Wenn Sie beispielsweise über einen Amazon-S3-Bucket verfügen, der sowohl .csv- als auch .json-Dateien enthält und Sie die .json-Dateien vom Crawler ausschließen, fragt Athena beide Dateigruppen ab. Um dies zu vermeiden, platzieren Sie die Dateien, die Sie ausschließen möchten, an einem anderen Speicherort.

Erstellen Sie einen Crawler AWS Glue

Sie können einen Crawler erstellen, indem Sie in der Athena-Konsole beginnen und dann die AWS Glue -Konsole in integrierter Weise verwenden. Wenn Sie den Crawler erstellen, geben Sie einen Datenspeicherort in Amazon S3 an, der gecrawlt werden soll.

Um einen Crawler von der AWS Glue Athena-Konsole aus zu erstellen
  1. Öffnen Sie die Athena-Konsole unter https://console.aws.amazon.com/athena/.

  2. Wählen Sie im Abfrage-Editor neben Tables and views (Tabellen und Ansichten) Create (Erstellen) und danach AWS Glue -Crawler aus.

  3. Führen Sie auf der AWS Glue-Konsolenseite Add crawler (Crawler hinzufügen) die Schritte zum Erstellen eines Crawlers aus. Weitere Informationen finden Sie unter Verwenden von AWS Glue Crawlern in diesem Handbuch und Auffüllen des AWS Glue Data Catalog im Entwicklerhandbuch.AWS Glue

Anmerkung

Athena erkennt keine Ausschlussmuster, die Sie für einen AWS Glue Crawler angeben. Wenn Sie beispielsweise über einen Amazon-S3-Bucket verfügen, der sowohl .csv- als auch .json-Dateien enthält und Sie die .json-Dateien vom Crawler ausschließen, fragt Athena beide Dateigruppen ab. Um dies zu vermeiden, platzieren Sie die Dateien, die Sie ausschließen möchten, an einem anderen Speicherort.

Nach einem Crawl weist der AWS Glue Crawler automatisch bestimmte Tabellenmetadaten zu, um sie mit anderen externen Technologien wie Apache Hive, Presto und Spark kompatibel zu machen. Es kann vorkommen, dass der Crawler dabei Metadateneigenschaften falsch zuweist. Korrigieren Sie die Eigenschaften in manuell, AWS Glue bevor Sie die Tabelle mit Athena abfragen. Weitere Informationen finden Sie unter Anzeigen und Bearbeiten von Tabellendetails im AWS Glue -Entwicklerhandbuch.

AWS Glue kann Metadaten falsch zuordnen, wenn eine CSV Datei jedes Datenfeld in Anführungszeichen setzt, wodurch die Eigenschaft falsch dargestellt wird. serializationLib Weitere Informationen finden Sie unter Umgang mit in Anführungszeichen eingeschlossenen CSV Daten.