Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Mit dem FileSize Regeltyp können Sie sicherstellen, dass Dateien bestimmte Dateigrößenkriterien erfüllen. Dies ist für die folgenden Anwendungsfälle nützlich:
-
Stellen Sie sicher, dass Hersteller keine leeren oder wesentlich kleineren Dateien zur Verarbeitung senden.
-
Stellen Sie sicher, dass Ihre Ziel-Buckets keine kleineren Dateien enthalten, was zu Leistungseinbußen führen kann.
FileSize sammelt die folgenden Messwerte:
-
Konformität: Gibt den Prozentsatz der Dateien zurück, die den von Ihnen festgelegten Regelschwellenwert erfüllen
-
Dateianzahl: Die Anzahl der Dateien, die nach der Regel gescannt wurden
-
Minimale Dateigröße in Byte
-
Maximale Dateigröße in Byte
Dataset.*.FileSize.Compliance: 1.00,
Dataset.*.FileCount: 8.00,
Dataset.*.MaximumFileSize: 327413121.00,
Dataset.*.MinimumFileSize: 204558920.00
Die Erkennung von Anomalien wird für diese Metriken nicht unterstützt.
Überprüfen Sie die Größe der Dateien
Diese Regel gilt, wenn file.dat größer als 2 MB ist.
FileSize "amzn-s3-demo-bucket/file.dat" > 2 MB
Zu den unterstützten Einheiten gehören B (Byte), MB (Megabytes), GB (Gigabytes) und TB (Terabyte).
Überprüfen Sie die Größe der Dateien in Ordnern
FileSize "s3://bucket/" > 5 B
FileSize "s3://bucket/" < 2 GB
Diese Regel gilt als gültig, wenn 70% der Dateien im amzn-s3-demo-bucket zwischen 2 GB und 1 TB groß sind.
FileSize "amzn-s3-demo-bucket/" between 2 GB and 1 TB with threshold > 0.7
Direktes Ableiten von Dateinamen aus Datenrahmen
Sie müssen nicht immer einen Dateipfad angeben. Wenn Sie beispielsweise die Regel im Datenkatalog erstellen, kann es schwierig sein, herauszufinden, welche Ordner die Katalogtabellen verwenden. AWS Glue Data Quality kann die spezifischen Ordner oder Dateien finden, die zum Füllen Ihres Datenrahmens verwendet werden.
Anmerkung
Diese Funktion funktioniert nur, wenn Dateien erfolgreich in das Feld DynamicFrame oder DataFrame eingelesen wurden.
FileSize < 10 MB with threshold > 0.7
Optionale dateibasierte Regel-Tags:
Mithilfe von Tags können Sie das Verhalten der Regel steuern.
Letzte Dateien
Dieses Tag begrenzt die Anzahl der verarbeiteten Dateien, indem die neueste Datei zuerst angezeigt wird.
FileSize "amzn-s3-demo-bucket/" > 5 B with recentFiles = 1
matchFileName
Dieses Tag stellt sicher, dass Dateien keine doppelten Namen haben. Das Standardverhalten ist falsch.
FileSize "amzn-s3-demo-bucket/" > 5 B with matchFileName = "true"
Es gibt ein paar Überlegungen:
-
In AWS Glue ETL muss Evaluate DataQuality Transform unmittelbar nach der Amazon S3- oder Data Catalog-Transformation installiert sein.
-
Diese Regel funktioniert nicht in AWS Glue Interactive Sessions.