Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
FileMatch Aturan ini memungkinkan Anda membandingkan file dengan file atau checksum lain. Ini dapat berguna dalam beberapa skenario:
-
Memvalidasi file yang diterima dari sumber eksternal: Anda dapat menggunakan FileMatch untuk memastikan bahwa Anda telah menerima file yang benar dari sumber eksternal dengan membandingkan dengan checksum. Ini membantu memvalidasi integritas data yang Anda konsumsi.
-
Membandingkan data dalam dua folder yang berbeda: FileMatch dapat digunakan untuk membandingkan file antara dua folder.
Aturan ini mengumpulkan satu metrik: jumlah file yang dipindai oleh aturan.
{"Dataset.*.FileCount":1}
Validasi file dengan checksum:
FileMatch menerima file dan set checksum untuk memastikan bahwa setidaknya satu checksum cocok dengan file.
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5"
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1"
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256"
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac041793154713e5ef8f319"]
Algoritma standar berikut didukung:
-
MD5
-
SHA-1
-
SHA-256
Jika Anda tidak menyediakan algoritma, defaultnya adalah SHA-256.
Validasi semua file dalam folder dengan set checksum:
FileMatch "amzn-s3-demo-bucket /" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5"
FileMatch "amzn-s3-demo-bucket /internal-folder/" in ["3ee0d8617ac041793154713e5ef8f319", "7e8617ac041793154713e5ef8f319"]
Bandingkan file di folder yang berbeda
FileMatch "s3://original_bucket/" "s3://archive_bucket/"
FileMatch "s3://original_bucket/internal-folder/" "s3://original_bucket/other-folder/"
FileMatch akan memeriksa isi file original_bucket
dan memastikan mereka cocok dengan apa yang ada di dalamnyaarchive_bucket
. Aturan akan gagal jika mereka tidak benar-benar cocok. Itu juga dapat memeriksa isi folder internal atau file individual.
FileMatch juga dapat memeriksa file individual terhadap satu sama lain.
FileMatch "amzn-s3-demo-bucket /file_old.json" "amzn-s3-demo-bucket /file_new.json"
Menyimpulkan nama file langsung dari bingkai data
Anda tidak selalu harus menyediakan jalur file. Misalnya, saat Anda membuat aturan di Katalog Data AWS Glue (didukung oleh Amazon S3), mungkin sulit untuk menemukan folder mana yang digunakan tabel katalog. AWS Glue Data Quality dapat menemukan folder atau file tertentu yang digunakan untuk mengisi bingkai data Anda.
catatan
Fitur ini hanya akan berfungsi ketika file berhasil dibaca ke dalam DynamicFrame atau DataFrame.
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "MD5"
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-1"
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"] with hashAlgorithm = "SHA-256"
FileMatch in ["3ee0d8617ac041793154713e5ef8f319"]
Jika checksum yang disediakan berbeda dari yang dihitung, FileMatch akan mengingatkan Anda akan perbedaannya.

Tag Aturan Berbasis File Opsional:
Tag memungkinkan Anda untuk mengontrol perilaku aturan.
RecentFiles
Tag ini membatasi jumlah file yang diproses dengan menyimpan file terbaru terlebih dahulu.
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac04179sam4713e5ef8f319"] with recentFiles = 1
matchFileName
Tag ini memastikan bahwa file tidak memiliki nama duplikat. Perilaku default adalah false.
FileMatch "amzn-s3-demo-bucket/file.json" in ["3ee0d8617ac04179sam4713e5ef8f319"] with matchFileName = "true"
Ada beberapa pertimbangan:
-
Di AWS Glue ETL, Anda harus memiliki EvaluateDataQualityTransform segera setelah transformasi Amazon S3 atau AWS Glue Data Catalog.
-
Aturan ini tidak akan berfungsi di AWS Glue Interactive Sessions.