Memecahkan masalah kesalahan Inference Recommender - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Memecahkan masalah kesalahan Inference Recommender

Bagian ini berisi informasi tentang cara memahami dan mencegah kesalahan umum, pesan kesalahan yang mereka hasilkan, dan panduan tentang cara mengatasi kesalahan ini.

Cara memecahkan masalah

Anda dapat mencoba mengatasi kesalahan Anda dengan melalui langkah-langkah berikut:

  • Periksa apakah Anda telah mencakup semua prasyarat untuk menggunakan Inference Recommender. Lihat Prasyarat Rekomendasi Inferensi.

  • Periksa apakah Anda dapat menerapkan model Anda dari Registri Model ke titik akhir dan dapat memproses muatan Anda tanpa kesalahan. Lihat Menerapkan Model dari Registri.

  • Saat memulai pekerjaan Inference Recommender, Anda akan melihat titik akhir dibuat di konsol dan Anda dapat meninjau log. CloudWatch

Kesalahan umum

Tinjau tabel berikut untuk kesalahan Inference Recommender umum dan solusinya.

Kesalahan Solusi

Tentukan Domain dalam Model Package versi 1. Domainadalah parameter wajib untuk pekerjaan itu.

Pastikan Anda menyediakan domain ML atau OTHER jika tidak dikenal.

Peran yang diberikan ARN tidak dapat diasumsikan dan terjadi AWSSecurityTokenServiceException kesalahan.

Pastikan peran eksekusi yang disediakan memiliki izin yang diperlukan yang ditentukan dalam prasyarat.

Tentukan Framework dalam Model Package versi 1. Frameworkadalah parameter wajib untuk pekerjaan itu.

Pastikan Anda menyediakan Framework ML atau OTHER jika tidak diketahui.

Pengguna pada akhir fase sebelumnya adalah 0 sedangkan pengguna awal fase saat ini adalah 1.

Pengguna di sini mengacu pada pengguna virtual atau utas yang digunakan untuk mengirim permintaan. Setiap fase dimulai dengan pengguna A dan diakhiri dengan pengguna B sehingga B > A. Antara fase berurutan, x_1 dan x_2, kita memerlukan abs (x_2.a - x_1.b) <= 3 dan >= 0.

Total durasi Lalu Lintas (lintas) tidak boleh lebih dari durasi Job.

Total durasi semua Fase Anda tidak dapat melebihi durasi Job.

Jenis instance burstable ml.t2.medium tidak diperbolehkan.

Inference Recommender tidak mendukung pengujian beban pada keluarga instans t2 karena instance burstable tidak memberikan kinerja yang konsisten.

ResourceLimitExceeded saat memanggil CreateEndpoint operasi

Anda telah melampaui batas sumber SageMaker daya. Misalnya, Inference Recommender mungkin tidak dapat menyediakan endpoint untuk benchmarking jika akun telah mencapai kuota endpoint. Untuk informasi selengkapnya tentang SageMaker batas dan kuota, lihat SageMakertitik akhir dan kuota Amazon.

ModelError saat memanggil InvokeEndpoint operasi

Kesalahan model dapat terjadi karena alasan berikut:

  • Waktu pemanggilan habis sambil menunggu respons dari wadah model.

  • Model tidak dapat memproses muatan input.

PayloadError saat memanggil InvokeEndpoint operasi

Kesalahan payload dapat terjadi karena alasan berikut:

  • Sumber payload tidak ada di bucket Amazon S3.

  • Payload dalam format objek non-file.

  • Payload dalam jenis file yang tidak valid. Misalnya, model mengharapkan muatan jenis gambar tetapi diteruskan file teks.

  • Muatannya kosong.

Periksa CloudWatch

Saat memulai pekerjaan Inference Recommender, Anda akan melihat titik akhir dibuat di konsol. Pilih salah satu titik akhir dan lihat CloudWatch log untuk memantau kesalahan 4xx/5xx. Jika Anda memiliki pekerjaan Inference Recommender yang sukses, Anda akan dapat melihat nama titik akhir sebagai bagian dari hasil. Bahkan jika pekerjaan Inference Recommender Anda tidak berhasil, Anda masih dapat memeriksa CloudWatch log untuk titik akhir yang dihapus dengan mengikuti langkah-langkah di bawah ini:

  1. Buka CloudWatch konsol Amazon di https://console.aws.amazon.com/cloudwatch/.

  2. Pilih Wilayah tempat Anda membuat pekerjaan Inference Recommender dari daftar dropdown Region di kanan atas.

  3. Di panel navigasi CloudWatch, pilih Log, lalu pilih Grup log.

  4. Cari grup log yang disebut/aws/sagemaker/Endpoints/sm-epc-*. Pilih grup log berdasarkan pekerjaan Inference Recommender terbaru Anda.

Anda juga dapat memecahkan masalah pekerjaan Anda dengan memeriksa log Inference Recommender. CloudWatch Log Inference Recommender, yang diterbitkan dalam grup /aws/sagemaker/InferenceRecommendationsJobs CloudWatch log, memberikan tampilan tingkat tinggi tentang kemajuan pekerjaan di aliran <jobName>/execution log. Anda dapat menemukan informasi terperinci tentang setiap konfigurasi titik akhir yang sedang diuji di aliran <jobName>/Endpoint/<endpointName> log.

Ikhtisar aliran log Inference Recommender

  • <jobName>/executionberisi informasi pekerjaan secara keseluruhan seperti konfigurasi titik akhir yang dijadwalkan untuk pembandingan, alasan lompatan pekerjaan kompilasi, dan alasan kegagalan validasi.

  • <jobName>/Endpoint/<endpointName>berisi informasi seperti kemajuan pembuatan sumber daya, konfigurasi pengujian, alasan berhenti uji beban, dan status pembersihan sumber daya.

  • <jobName>/CompilationJob/<compilationJobName>berisi informasi tentang pekerjaan kompilasi yang dibuat oleh Inference Recommender, seperti konfigurasi pekerjaan kompilasi dan status pekerjaan kompilasi.

Buat alarm untuk pesan kesalahan Inference Recommender

Inference Recommender mengeluarkan pernyataan log untuk kesalahan yang mungkin berguna saat pemecahan masalah. Dengan grup CloudWatch log dan filter metrik, Anda dapat mencari istilah dan pola dalam data log ini saat data dikirim CloudWatch. Kemudian, Anda dapat membuat CloudWatch alarm berdasarkan filter metrik grup log. Untuk informasi selengkapnya, lihat Membuat CloudWatch alarm berdasarkan filter metrik grup log.

Periksa tolok ukur

Saat memulai pekerjaan Inference Recommender, Inference Recommender membuat beberapa tolok ukur untuk mengevaluasi kinerja model Anda pada jenis instans yang berbeda. Anda dapat menggunakan ListInferenceRecommendationsJobStepsAPIuntuk melihat detail untuk semua tolok ukur. Jika Anda memiliki tolok ukur yang gagal, Anda dapat melihat alasan kegagalan sebagai bagian dari hasil.

Untuk menggunakan ListInferenceRecommendationsJobStepsAPI, berikan nilai-nilai berikut:

  • UntukJobName, berikan nama pekerjaan Inference Recommender.

  • UntukStepType, gunakan BENCHMARK untuk mengembalikan detail tentang tolok ukur pekerjaan.

  • UntukStatus, gunakan FAILED untuk mengembalikan detail hanya tentang tolok ukur yang gagal. Untuk daftar jenis status lainnya, lihat Status bidang di ListInferenceRecommendationsJobStepsAPI.

# Create a low-level SageMaker service client. import boto3 aws_region = '<region>' sagemaker_client = boto3.client('sagemaker', region_name=aws_region) # Provide the job name for the SageMaker Inference Recommender job job_name = '<job-name>' # Filter for benchmarks step_type = 'BENCHMARK' # Filter for benchmarks that have a FAILED status status = 'FAILED' response = sagemaker_client.list_inference_recommendations_job_steps( JobName = job_name, StepType = step_type, Status = status )

Anda dapat mencetak objek respons untuk melihat hasilnya. Contoh kode sebelumnya menyimpan respons dalam variabel yang disebut: response

print(response)