Membuat dasar patch

Perhitungan dasar statistik dan kendala diperlukan sebagai standar di mana penyimpangan data dan masalah kualitas data lainnya dapat dideteksi. Model Monitor menyediakan wadah bawaan yang menyediakan kemampuan untuk menyarankan kendala secara otomatis untuk input CSV dan JSON datar. sagemaker-model-monitor-analyzerContainer ini juga memberi Anda berbagai kemampuan pemantauan model, termasuk validasi kendala terhadap baseline, dan memancarkan metrik Amazon. CloudWatch Wadah ini didasarkan pada Spark versi 3.3.0 dan dibangun dengan Deequ versi 2.0.2. Semua nama kolom dalam dataset dasar Anda harus sesuai dengan Spark. Untuk nama kolom, gunakan hanya karakter huruf kecil, dan _ sebagai satu-satunya karakter khusus.

Dataset pelatihan yang Anda gunakan untuk melatih model biasanya merupakan kumpulan data dasar yang baik. Skema data kumpulan data pelatihan dan skema kumpulan data inferensi harus sama persis (jumlah dan urutan fitur). Perhatikan bahwa prediction/output kolom diasumsikan sebagai kolom pertama dalam kumpulan data pelatihan. Dari kumpulan data pelatihan, Anda dapat meminta SageMaker AI untuk menyarankan serangkaian batasan dasar dan menghasilkan statistik deskriptif untuk menjelajahi data. Untuk contoh ini, unggah kumpulan data pelatihan yang digunakan untuk melatih model yang telah dilatih sebelumnya yang termasuk dalam contoh ini. Jika Anda sudah menyimpan kumpulan data pelatihan di Amazon S3, Anda dapat mengarahkannya secara langsung.

Membuat baseline dari dataset pelatihan

Saat data pelatihan Anda siap dan disimpan di Amazon S3, mulailah pekerjaan pemrosesan dasar dengan menggunakan DefaultModelMonitor.suggest_baseline(..) Amazon Python SDK. SageMaker Ini menggunakan Amazon SageMaker Model Monitor wadah bawaan yang menghasilkan statistik dasar dan menyarankan batasan dasar untuk kumpulan data dan menuliskannya ke lokasi yang Anda tentukan. output_s3_uri


from sagemaker.model_monitor import DefaultModelMonitor
from sagemaker.model_monitor.dataset_format import DatasetFormat

my_default_monitor = DefaultModelMonitor(
    role=role,
    instance_count=1,
    instance_type='ml.m5.xlarge',
    volume_size_in_gb=20,
    max_runtime_in_seconds=3600,
)

my_default_monitor.suggest_baseline(
    baseline_dataset=baseline_data_uri+'/training-dataset-with-header.csv',
    dataset_format=DatasetFormat.csv(header=True),
    output_s3_uri=baseline_results_uri,
    wait=True
)

catatan

Jika Anda memberikan feature/column nama dalam kumpulan data pelatihan sebagai baris pertama dan mengatur header=True opsi seperti yang ditunjukkan pada sampel kode sebelumnya, SageMaker AI menggunakan nama fitur dalam file batasan dan statistik.

Statistik dasar untuk kumpulan data terkandung dalam file statistics.json dan batasan dasar yang disarankan terkandung dalam file constraints.json di lokasi yang Anda tentukan. output_s3_uri

File Output untuk Statistik dan Kendala Set Data Tabular

Nama file	Deskripsi
`statistics.json`	File ini diharapkan memiliki statistik kolumnar untuk setiap fitur dalam kumpulan data yang dianalisis. Untuk informasi lebih lanjut tentang format file dalam jumlah besar, lihat Skema untuk Statistik (file statistik.json).
`constraints.json`	File ini diharapkan memiliki kendala pada fitur yang diamati. Untuk informasi lebih lanjut tentang format file dalam jumlah besar, lihat Skema untuk Kendala (file kendala json).

Amazon SageMaker Python SDK menyediakan fungsi kenyamanan yang dijelaskan untuk menghasilkan statistik dan batasan dasar. Tetapi jika Anda ingin memanggil pekerjaan pemrosesan secara langsung untuk tujuan ini, Anda perlu mengatur Environment peta seperti yang ditunjukkan pada contoh berikut:


"Environment": {
    "dataset_format": "{\"csv\”: { \”header\”: true}",
    "dataset_source": "/opt/ml/processing/sm_input",
    "output_path": "/opt/ml/processing/sm_output",
    "publish_cloudwatch_metrics": "Disabled",
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kualitas Data

Jadwalkan pekerjaan pemantauan kualitas data