Pufferdaten für die dynamische Partitionierung

Amazon Data Firehose puffert eingehende Streaming-Daten bis zu einer bestimmten Größe und für einen bestimmten Zeitraum, bevor sie an die angegebenen Ziele gesendet werden. Sie können die Puffergröße und das Pufferintervall beim Erstellen neuer Firehose konfigurieren oder die Puffergröße und das Pufferintervall für Ihre vorhandenen Firehose-Streams aktualisieren. Eine Puffergröße wird in Sekunden gemessen MBs und ein Pufferintervall wird in Sekunden gemessen.

Anmerkung

Die Funktion „Nullpuffer“ ist für die dynamische Partitionierung nicht verfügbar.

Wenn die dynamische Partitionierung aktiviert ist, puffert Firehose intern Datensätze, die zu einer bestimmten Partition gehören, basierend auf dem konfigurierten Pufferhinweis (Größe und Zeit), bevor diese Datensätze an Ihren Amazon S3-Bucket gesendet werden. Um Objekte mit maximaler Größe zu liefern, verwendet Firehose intern eine mehrstufige Pufferung. Daher kann die end-to-end Verzögerung eines Batches von Datensätzen das 1,5-fache der konfigurierten Pufferhinweiszeit betragen. Dies wirkt sich auf die Datenaktualität eines Firehose-Streams aus.

Die Anzahl der aktiven Partitionen ist die Gesamtzahl der aktiven Partitionen innerhalb des Bereitstellungspuffers. Wenn die dynamische Partitionierungsabfrage beispielsweise 3 Partitionen pro Sekunde erstellt und Sie eine Konfiguration mit Pufferhinweisen haben, die alle 60 Sekunden eine Übermittlung auslöst, dann haben Sie im Durchschnitt 180 aktive Partitionen. Wenn Firehose die Daten in einer Partition nicht an ein Ziel liefern kann, wird diese Partition im Lieferpuffer als aktiv gezählt, bis sie zugestellt werden kann.

Eine neue Partition wird erstellt, wenn ein S3-Präfix auf der Grundlage der Datensatzdatenfelder und der S3-Präfixausdrücke zu einem neuen Wert ausgewertet wird. Für jede aktive Partition wird ein neuer Puffer erstellt. Jeder nachfolgende Datensatz mit demselben ausgewerteten S3-Präfix wird an diesen Puffer geliefert.

Sobald der Puffer die Puffergrößenbeschränkung oder das Pufferzeitintervall erreicht hat, erstellt Firehose ein Objekt mit den Pufferdaten und liefert es an das angegebene Amazon S3 S3-Präfix. Nachdem das Objekt geliefert wurde, werden der Puffer für diese Partition und die Partition selbst gelöscht und aus der Anzahl der aktiven Partitionen entfernt.

Firehose liefert alle Pufferdaten als einzelnes Objekt, sobald die Puffergröße oder das Intervall für jede Partition separat erreicht sind. Sobald die Anzahl der aktiven Partitionen ein Limit von 500 pro Firehose-Stream erreicht, werden die restlichen Datensätze im Firehose-Stream an das angegebene S3-Fehler-Bucket-Präfix () activePartitionExceeded übermittelt. Sie können das Formular Amazon Data Firehose Limits verwenden, um eine Erhöhung dieses Kontingents auf bis zu 5000 aktive Partitionen pro gegebenem Firehose-Stream zu beantragen. Wenn Sie mehr Partitionen benötigen, können Sie mehr Firehose-Streams erstellen und die aktiven Partitionen auf diese verteilen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beheben Sie Fehler bei der dynamischen Partitionierung

Konvertiert das Eingabedatenformat