Skema untuk Kendala (file kendala json) - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Skema untuk Kendala (file kendala json)

File constraints.json digunakan untuk mengekspresikan kendala yang harus dipenuhi oleh dataset. Container Amazon SageMaker Model Monitor dapat menggunakan file constraints.json untuk mengevaluasi kumpulan data. Kontainer bawaan menyediakan kemampuan untuk menghasilkan file constraints.json secara otomatis untuk dataset dasar. Jika Anda membawa wadah Anda sendiri, Anda dapat menyediakannya dengan kemampuan serupa atau Anda dapat membuat file constraints.json dengan cara lain. Berikut adalah skema untuk file kendala yang digunakan kontainer bawaan. Bawa wadah Anda sendiri dapat mengadopsi format yang sama atau meningkatkannya sesuai kebutuhan.

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

monitoring_configObjek berisi opsi untuk pekerjaan pemantauan untuk fitur tersebut. Tabel berikut menjelaskan setiap opsi.

Kendala Pemantauan
Kendala Deskripsi
evaluate_constraints

KapanEnabled, mengevaluasi apakah kumpulan data saat ini yang dianalisis memenuhi batasan yang ditentukan dalam file constraints.json yang diambil sebagai baseline.

Nilai yang valid: Enabled atau Disabled

Default: Enabled

emit_metrics

KapanEnabled, memancarkan CloudWatch metrik untuk data yang terkandung dalam file.

Nilai yang valid: Enabled atau Disabled

Default: Enabled

datatype_check_threshold

Jika ambang batas di atas nilai yang ditentukandatatype_check_threshold, ini menyebabkan kegagalan yang diperlakukan sebagai pelanggaran dalam laporan pelanggaran. Jika tipe data dalam eksekusi saat ini tidak sama dengan pada dataset dasar, ambang batas ini digunakan untuk mengevaluasi apakah perlu ditandai sebagai pelanggaran.

Selama langkah dasar, kendala yang dihasilkan menyarankan tipe data yang disimpulkan untuk setiap kolom. datatype_check_thresholdParameter dapat disetel untuk menyesuaikan ambang batas saat ditandai sebagai pelanggaran.

Nilai yang valid: float

Default: 0,1

domain_content_threshold

Jika ada lebih banyak nilai yang tidak diketahui untuk bidang String di kumpulan data saat ini daripada di kumpulan data dasar, ambang batas ini dapat digunakan untuk menentukan apakah perlu ditandai sebagai pelanggaran.

Nilai yang valid: float

Default: 0,1

distribution_constraints perform_comparison

KapanEnabled, bendera ini menginstruksikan kode untuk melakukan perbandingan distribusi antara distribusi dasar dan distribusi yang diamati untuk kumpulan data saat ini.

Nilai yang valid: Enabled atau Disabled

Default: Enabled

comparison_threshold

Jika ambang batas di atas nilai yang ditetapkan untukcomparison_threshold, ini menyebabkan kegagalan yang diperlakukan sebagai pelanggaran dalam laporan pelanggaran. Jarak dihitung dengan mendapatkan perbedaan absolut maksimum antara fungsi distribusi kumulatif dari dua distribusi.

Nilai yang valid: float

Default: 0,1

comparison_method

Apakah akan menghitung linf_simple ataulinf_robust. linf_simpleIni didasarkan pada perbedaan absolut maksimum antara fungsi distribusi kumulatif dari dua distribusi. Menghitung linf_robust didasarkan padalinf_simple, tetapi digunakan ketika tidak ada cukup sampel. linf_robustRumusnya didasarkan pada uji Kolmogorov-Smirnov dua sampel.

Nilai yang valid: linf_simple atau linf_robust

categorical_comparison_threshold

Tidak wajib. Menetapkan ambang batas untuk fitur kategoris. Jika nilai dalam kumpulan data melebihi ambang batas yang Anda tetapkan, pelanggaran dicatat dalam laporan pelanggaran.

Nilai yang valid: float

Default: Nilai yang ditetapkan untuk comparison_threshold parameter

categorical_drift_method

Tidak wajib. Untuk fitur kategoris, tentukan metode komputasi yang digunakan untuk mendeteksi penyimpangan distribusi. Jika Anda tidak mengatur parameter ini, tes K-S (LinFinity) digunakan.

Nilai yang Valid: LInfinity atau ChiSquared

Default: LInfinity