Format kumpulan data deret waktu dan metode pengisian nilai yang hilang - Amazon SageMaker

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Format kumpulan data deret waktu dan metode pengisian nilai yang hilang

Data deret waktu mengacu pada kumpulan pengamatan atau pengukuran yang direkam selama interval waktu yang teratur. Dalam jenis data ini, setiap pengamatan dikaitkan dengan stempel waktu atau periode waktu tertentu, menciptakan urutan titik data yang diurutkan secara kronologis.

Kolom spesifik yang Anda sertakan dalam kumpulan data deret waktu bergantung pada tujuan analisis Anda dan data yang tersedia untuk Anda. Minimal, data deret waktu terdiri dari tabel 3 kolom di mana:

  • Satu kolom berisi pengidentifikasi unik yang ditugaskan ke item individual untuk merujuk nilainya pada saat tertentu.

  • Kolom lain mewakili point-in-time nilai atau target untuk mencatat nilai item tertentu pada saat tertentu. Setelah model dilatih pada nilai-nilai target tersebut, kolom target ini berisi nilai-nilai yang diprediksi model pada frekuensi tertentu dalam cakrawala yang ditentukan.

  • Dan kolom stempel waktu disertakan untuk mencatat tanggal dan waktu ketika nilai diukur.

  • Kolom tambahan dapat berisi faktor-faktor lain yang dapat mempengaruhi kinerja perkiraan. Misalnya, dalam kumpulan data deret waktu untuk ritel di mana targetnya adalah penjualan atau pendapatan, Anda mungkin menyertakan fitur yang memberikan informasi tentang unit yang terjual, ID produk, lokasi toko, jumlah pelanggan, tingkat inventaris, serta indikator kovariat seperti data cuaca atau informasi demografis.

catatan

Anda dapat menambahkan kumpulan data informasi hari libur nasional yang direkayasa fitur ke deret waktu Anda. Dengan memasukkan liburan dalam model deret waktu Anda, Anda dapat menangkap pola periodik yang dibuat liburan. Ini membantu perkiraan Anda mencerminkan musim yang mendasari data Anda dengan lebih baik. Untuk informasi tentang kalender yang tersedia per negara, lihat Kalender hari libur nasional

Format kumpulan data untuk peramalan deret waktu

Autopilot mendukung tipe data numerik, kategoris, teks, dan datetime. Tipe data kolom target harus numerik.

Autopilot mendukung data deret waktu yang diformat sebagai file CSV (default) atau sebagai file Parket.

  • CSV(comma-separated-values) adalah format file berbasis baris yang menyimpan data dalam teks biasa yang dapat dibaca manusia yang merupakan pilihan populer untuk pertukaran data karena didukung oleh berbagai aplikasi.

  • Parket adalah format file berbasis kolom di mana data disimpan dan diproses lebih efisien daripada format file berbasis baris. Ini membuat mereka menjadi pilihan yang lebih baik untuk masalah data besar.

Untuk informasi selengkapnya tentang batas sumber daya pada kumpulan data deret waktu untuk peramalan di Autopilot, lihat. Batas sumber daya peramalan deret waktu Amazon SageMaker Autopilot

Tangani nilai yang hilang

Masalah umum dalam data peramalan deret waktu adalah adanya nilai yang hilang. Data Anda mungkin berisi nilai yang hilang karena sejumlah alasan, termasuk kegagalan pengukuran, masalah pemformatan, kesalahan manusia, atau kurangnya informasi untuk direkam. Misalnya, jika Anda memperkirakan permintaan produk untuk toko ritel dan barang terjual habis atau tidak tersedia, tidak akan ada data penjualan untuk dicatat saat barang itu kehabisan stok. Jika cukup umum, nilai yang hilang dapat secara signifikan memengaruhi akurasi model.

Autopilot menyediakan sejumlah metode pengisian untuk menangani nilai yang hilang, dengan pendekatan berbeda untuk kolom target dan kolom tambahan lainnya. Pengisian adalah proses menambahkan nilai standar ke entri yang hilang dalam kumpulan data Anda.

Lihat Cara menangani nilai yang hilang dalam kumpulan data input Anda untuk mempelajari cara mengatur metode untuk mengisi nilai yang hilang dalam kumpulan data deret waktu Anda.

Autopilot mendukung metode pengisian berikut:

  • Pengisian depan: Mengisi nilai yang hilang antara titik data tercatat paling awal di antara semua item dan titik awal setiap item (setiap item dapat dimulai pada waktu yang berbeda). Ini memastikan bahwa data untuk setiap item lengkap dan mencakup dari titik data yang direkam paling awal ke titik awal masing-masing.

  • Pengisian tengah: Mengisi nilai yang hilang antara tanggal mulai dan akhir item dalam kumpulan data.

  • Pengisian kembali: Mengisi nilai yang hilang antara titik data terakhir dari setiap item (setiap item dapat berhenti pada waktu yang berbeda) dan titik data terakhir yang direkam di antara semua item.

  • Pengisian di masa depan: Mengisi nilai yang hilang antara titik data terakhir yang direkam di antara semua item dan akhir cakrawala perkiraan.

Gambar berikut memberikan representasi visual dari metode pengisian yang berbeda.

Metode pengisian yang berbeda untuk peramalan deret waktu di Amazon SageMaker Autopilot.

Pilih logika pengisian

Saat memilih logika pengisian, Anda harus mempertimbangkan bagaimana logika akan ditafsirkan oleh model Anda. Misalnya, dalam skenario ritel, mencatat 0 penjualan barang yang tersedia berbeda dengan mencatat 0 penjualan barang yang tidak tersedia, karena yang terakhir tidak menyiratkan kurangnya minat pelanggan pada item tersebut. Karena itu, 0 mengisi kolom target deret waktu dapat menyebabkan prediktor menjadi kurang bias dalam prediksinya, sementara NaN pengisian mungkin mengabaikan kejadian aktual dari 0 item yang tersedia yang dijual dan menyebabkan prediktor menjadi terlalu bias.

Mengisi logika

Anda dapat melakukan pengisian pada kolom target dan kolom numerik lainnya dalam kumpulan data Anda. Kolom target memiliki pedoman dan batasan pengisian yang berbeda dari kolom numerik lainnya.

Pedoman Pengisian

Tipe kolom Mengisi secara default? Metode pengisian yang didukung Logika pengisian default Logika pengisian yang diterima
Kolom target Ya Isi tengah dan belakang 0
  • zero- 0 mengisi.

  • value- bilangan bulat atau nomor float.

  • nan- Bukan angka.

  • mean- nilai rata-rata dari seri data.

  • median- nilai median dari seri data.

  • min- nilai minimum dari seri data.

  • max- nilai maksimum dari seri data.

Kolom numerik lainnya Tidak Pengisian tengah, belakang, dan future Tidak ada default
  • zero- 0 mengisi.

  • value- nilai integer atau float.

  • mean- nilai rata-rata dari seri data.

  • median- nilai median dari seri data.

  • min- nilai minimum dari seri data.

  • max- nilai maksimum dari seri data.

catatan

Untuk target dan kolom numerik lainnya,, meanmedian,min, dan max dihitung berdasarkan jendela bergulir dari 64 entri data terbaru sebelum nilai yang hilang.