Name der Serialisierungsbibliothek Beispiel

Regex SerDe

Die Regex SerDe verwendet einen regulären Ausdruck (Regex), um Daten zu deserialisieren, indem Regex-Gruppen in Tabellenspalten extrahiert werden.

Wenn eine Zeile in den Daten nicht mit dem Regex übereinstimmt, werden alle Spalten in der Zeile als NULL zurückgegeben. Wenn eine Zeile mit dem Regex übereinstimmt, aber weniger Gruppen hat als erwartet, sind die fehlenden Gruppen NULL. Wenn eine Zeile in den Daten mit dem Regex übereinstimmt, aber mehr Spalten als Gruppen in dem Regex enthält, werden die zusätzlichen Spalten ignoriert.

Weitere Informationen finden Sie unter Class in der Apache Hive-Dokumentation. RegexSerDe

Name der Serialisierungsbibliothek

Der Name der Serialisierungsbibliothek für die SerDe Regex lautet. org.apache.hadoop.hive.serde2.RegexSerDe Informationen zum Quellcode finden Sie unter Class RegexSerDe in der Apache-Dokumentation.

Beispiel

Das folgende Beispiel erstellt eine Tabelle aus CloudFront Protokollen mithilfe von RegExSerDe. Ersetzen myregion s3://athena-examples-myregion/cloudfront/plaintext/mit der Regionskennung, in der Sie Athena ausführen (z. B.s3://athena-examples-us-west-1/cloudfront/plaintext/).


CREATE EXTERNAL TABLE IF NOT EXISTS cloudfront_logs (
  `Date` DATE,
  Time STRING,
  Location STRING,
  Bytes INT,
  RequestIP STRING,
  Method STRING,
  Host STRING,
  Uri STRING,
  Status INT,
  Referrer STRING,
  os STRING,
  Browser STRING,
  BrowserVersion STRING
 ) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.RegexSerDe'
 WITH SERDEPROPERTIES (
 "input.regex" = "^(?!#)([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+([^ ]+)\\s+[^\(]+[\(]([^\;]+).*\%20([^\/]+)[\/](.*)$"
 ) 
LOCATION 's3://athena-examples-myregion/cloudfront/plaintext/';

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Parkett SerDe

Abfragen ausführen