Runbook migrasi Amazon DocumentDB - Amazon DocumentDB

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Runbook migrasi Amazon DocumentDB

Runbook ini menyediakan panduan komprehensif untuk memigrasi database MongoDB ke Amazon DocumentDB menggunakan (DMS). AWS Database Migration Service Ini dirancang untuk mendukung administrator database, insinyur cloud, dan pengembang selama perjalanan end-to-end migrasi — dari penemuan awal hingga validasi pasca-migrasi.

Mengingat perbedaan dalam implementasi dan fitur yang didukung antara MongoDB dan Amazon DocumentDB, runbook ini menekankan pendekatan terstruktur dan sistematis. Ini menguraikan penilaian pra-migrasi yang penting, menyoroti pertimbangan kompatibilitas, dan merinci tugas-tugas utama yang diperlukan untuk memastikan migrasi yang berhasil dengan gangguan minimal.

Runbook diatur ke dalam topik-topik berikut:

  • Kompatibilitas— Memahami fitur MongoDB yang didukung dan tipe data di Amazon DocumentDB, dan mengidentifikasi potensi ketidakcocokan.

  • Penemuan beban kerja— Menganalisis beban kerja MongoDB yang ada, read/write termasuk pola, volume data, dan baseline kinerja.

  • Migrasi indeks— Analisis strategi untuk mengekstraksi dan mengubah indeks MongoDB untuk kinerja optimal di Amazon DocumentDB.

  • Migrasi pengguna— Detail pendekatan untuk memigrasi pengguna database, peran, dan kontrol akses ke Amazon DocumentDB.

  • Migrasi data— Mencakup berbagai metode untuk migrasi data yang digunakan AWS DMS, termasuk full load dan change data capture (CDC).

  • Pemantauan— Detail berbagai pendekatan pemantauan saat bermigrasi menggunakan DMS atau alat asli.

  • Validasi— Menyediakan prosedur untuk pemeriksaan integritas data, validasi fungsional, dan perbandingan kinerja pasca-migrasi.

Dengan mengikuti panduan dalam runbook ini, tim dapat memastikan transisi yang lancar, aman, dan efisien ke Amazon DocumentDB, sambil menjaga fungsionalitas aplikasi dan meminimalkan risiko.

Kompatibilitas

Saat bermigrasi dari MongoDB ke Amazon DocumentDB, penilaian awal yang menyeluruh dan pemeriksaan kompatibilitas fitur sangat penting untuk migrasi yang berhasil. Proses ini dimulai dengan inventaris lengkap fitur MongoDB Anda, termasuk operator pipeline agregasi, pola kueri, indeks, dan model data.

Karena Amazon DocumentDB kompatibel dengan MongoDB 3.6, 4.0, dan 5.0 API, aplikasi yang menggunakan fitur khusus MongoDB yang lebih baru mungkin memerlukan refactoring. Area kritis untuk dievaluasi termasuk mekanisme sharding (Amazon DocumentDB menggunakan pendekatan yang berbeda), implementasi transaksi, fungsionalitas aliran perubahan, dan jenis indeks (terutama indeks jarang dan sebagian).

Karakteristik kinerja juga berbeda, dengan Amazon DocumentDB dioptimalkan untuk beban kerja perusahaan dengan kinerja yang dapat diprediksi. Pengujian harus melibatkan menjalankan beban kerja yang representatif terhadap kedua sistem untuk mengidentifikasi pola kueri yang mungkin memerlukan pengoptimalan.

Memantau rencana eksekusi untuk mendeteksi potensi kesenjangan kinerja penting selama fase penilaian. Ini membantu membuat peta jalan migrasi yang jelas, mengidentifikasi perubahan aplikasi yang diperlukan dan menetapkan jadwal yang realistis untuk transisi yang mulus.

Kompatibilitas fitur inti

Dukungan fitur yang komprehensif

  • Operasi CRUD - Nikmati dukungan penuh untuk semua operasi pembuatan, baca, perbarui, dan hapus dasar, termasuk operator massal dan kueri - menyediakan kompatibilitas aplikasi yang mulus.

  • Kemampuan pengindeksan yang kaya — Manfaatkan dukungan komprehensif untuk indeks bidang tunggal, gabungan, TTL, parsi, jarang, dan 2dsphere, untuk mengoptimalkan kinerja kueri dan indeks teks Anda (versi 5) untuk pencarian berbasis teks.

  • Replikasi tingkat perusahaan — Manfaatkan mekanisme failover otomatis yang kuat dengan replika baca untuk ketersediaan tinggi yang unggul tanpa overhead operasional.

  • Solusi pencadangan lanjutan - Beristirahatlah dengan sistem pencadangan otomatis yang menampilkan Point-in-Time Pemulihan (PITR) dan snapshot manual sesuai permintaan untuk perlindungan data.

Fitur AWS terintegrasi yang disempurnakan

  • Agregasi yang efisien — Manfaatkan tahapan agregasi yang paling umum digunakan ($match,,,, $group $sort$project, dll.) Dengan kinerja yang dioptimalkan untuk beban kerja perusahaan.

  • Dukungan transaksi - Menerapkan transaksi multi-dokumen dan multi-koleksi, sempurna untuk sebagian besar kebutuhan aplikasi bisnis.

  • Pelacakan data real-time - Aktifkan aliran perubahan dengan perintah sederhana dan tingkatkan periode retensi aliran perubahan melalui pengaturan grup parameter sederhana untuk pemantauan perubahan data waktu nyata.

  • Layanan berbasis lokasi - Menerapkan aplikasi geospasial dengan dukungan untuk $geoNear operator dan indeks 2dsphere.

  • Kemampuan pencarian teks - Memanfaatkan fungsionalitas pencarian teks bawaan untuk kebutuhan penemuan konten.

Keunggulan arsitektur modern

  • Desain cloud-native — Nikmati arsitektur AWS yang dioptimalkan yang menggantikan fitur lama seperti MapReduce dengan operasi pipeline agregasi yang lebih efisien.

  • Keamanan yang ditingkatkan - Manfaat dari AWS Identity and Access Management (IAM), SCRAM-SHA-1, SCRAM-SHA-256, otentikasi sertifikat X.509, dan otentikasi berbasis kata sandi.

  • Kinerja yang dapat diprediksi - Rasakan kinerja konsisten yang dioptimalkan secara khusus untuk beban kerja perusahaan.

Untuk gambaran menyeluruh tentang kemampuan Amazon DocumentDB, lihat APIsMongoDB, operasi, dan tipe data yang didukung di Amazon DocumentDB dan Perbedaan fungsional: Amazon DocumentDB dan MongoDB untuk memaksimalkan potensi database Anda.

Amazon DocumentDB tidak mendukung semua indeks yang ditawarkan oleh MongoDB. Kami menyediakan alat indeks gratis untuk memeriksa kompatibilitas. Kami merekomendasikan menjalankan alat indeks untuk menilai ketidakcocokan dan merencanakan solusi yang sesuai.

Alat penilaian kompatibilitas Amazon DocumentDB

Alat Kompatibilitas MongoDB ke Amazon DocumentDB adalah utilitas sumber terbuka yang tersedia GitHub yang membantu mengevaluasi kompatibilitas beban kerja MongoDB dengan Amazon DocumentDB dengan menganalisis log MongoDB atau kode sumber aplikasi.

Fitur utama

  • Mengidentifikasi pola penggunaan API MongoDB di beban kerja Anda

  • Menandai potensi masalah kompatibilitas sebelum migrasi

  • Menghasilkan laporan kompatibilitas terperinci dengan rekomendasi

  • Tersedia sebagai utilitas mandiri yang dapat dijalankan secara lokal

Metode penilaian

Penilaian berbasis log

  • Kelebihan:

    • Menangkap perilaku runtime aktual dan pola kueri

    • Mengidentifikasi frekuensi penggunaan dunia nyata dan karakteristik kinerja

    • Mendeteksi kueri dinamis yang mungkin tidak terlihat dalam kode sumber

    • Tidak diperlukan akses ke kode sumber aplikasi

  • Kontra:

    • Memerlukan akses ke log MongoDB dengan profil diaktifkan

    • Hanya menangkap operasi yang terjadi selama periode penebangan

    • Mungkin melewatkan fitur yang jarang digunakan atau beban kerja musiman

Analisis kode sumber

  • Kelebihan:

    • Cakupan komprehensif dari semua operasi MongoDB potensial dalam basis kode

    • Dapat mengidentifikasi masalah di jalur kode yang jarang dieksekusi

    • Mendeteksi logika sisi klien yang mungkin terpengaruh oleh perbedaan Amazon DocumentDB

    • Tidak perlu menjalankan aplikasi untuk melakukan penilaian

  • Kontra:

    • Dapat menandai kode yang ada tetapi tidak pernah dieksekusi dalam produksi

    • Membutuhkan akses ke kode sumber aplikasi lengkap

    • Kemampuan terbatas untuk menganalisis kueri yang dibangun secara dinamis

Untuk hasil terbaik, sebaiknya gunakan kedua metode penilaian bila memungkinkan untuk mendapatkan gambaran lengkap tentang tantangan kompatibilitas sebelum migrasi.

Penemuan beban kerja

Migrasi dari MongoDB ke Amazon DocumentDB memerlukan pemahaman menyeluruh tentang beban kerja database yang ada. Penemuan beban kerja adalah proses menganalisis pola penggunaan database Anda, struktur data, kinerja kueri, dan dependensi operasional untuk memastikan transisi yang mulus dengan gangguan minimal. Bagian ini menguraikan langkah-langkah kunci yang terlibat dalam penemuan beban kerja untuk memfasilitasi migrasi yang efektif dari MongoDB ke Amazon DocumentDB.

Menilai penerapan MongoDB yang ada

Sebelum migrasi, sangat penting untuk mengevaluasi lingkungan MongoDB saat ini, termasuk:

  • Arsitektur cluster — Identifikasi jumlah node, set replika, dan konfigurasi sharding. Saat bermigrasi dari MongoDB ke Amazon DocumentDB, memahami konfigurasi sharding MongoDB Anda penting karena Amazon DocumentDB tidak mendukung sharding yang dikendalikan pengguna. Aplikasi yang dirancang untuk lingkungan MongoDB sharded akan membutuhkan perubahan arsitektur, karena Amazon DocumentDB menggunakan pendekatan penskalaan yang berbeda dengan arsitektur berbasis penyimpanan. Anda harus menyesuaikan strategi distribusi data Anda dan mungkin mengkonsolidasikan koleksi sharded saat pindah ke Amazon DocumentDB.

  • Penyimpanan dan volume data — Ukur ukuran data total dan ukuran indeks klaster Anda. Lengkapi ini dengan alat ulasan Oplog untuk memahami pola tulis dan kecepatan pertumbuhan data. Untuk informasi selengkapnya tentang ukuran cluster Anda, lihatUkuran instans.

  • Pola beban kerja - Menganalisis throughput baca dan tulis, frekuensi eksekusi kueri, dan efisiensi pengindeksan.

  • Ketergantungan operasional - Dokumentasikan semua aplikasi, layanan, dan integrasi yang mengandalkan MongoDB.

Mengidentifikasi perbedaan model data

Meskipun Amazon DocumentDB kompatibel dengan MongoDB, ada perbedaan dalam fitur yang didukung, seperti:

  • Transaksi — Amazon DocumentDB mendukung transaksi ACID tetapi dengan beberapa. Batasan

  • Desain skema - Pastikan struktur dokumen, dokumen yang disematkan, dan referensi selaras dengan praktik terbaik Amazon DocumentDB.

Analisis kueri dan kinerja

Memahami perilaku kueri membantu mengoptimalkan migrasi dan performa pasca-migrasi. Bidang utama untuk dianalisis meliputi:

  • Kueri lambat - Identifikasi kueri dengan waktu eksekusi tinggi menggunakan alat profil MongoDB.

  • Pola kueri — Mengkategorikan jenis kueri umum, termasuk operasi dan agregasi CRUD.

  • Penggunaan indeks — Menilai apakah indeks digunakan secara efektif atau perlu optimasi di Amazon DocumentDB. Untuk menilai penggunaan indeks dan mengoptimalkan kinerja di Amazon DocumentDB, gunakan tahap pipeline agregasi $indexStats yang dikombinasikan dengan explain() metode pada kueri penting Anda. Mulailah dengan menjalankan db.collection.aggregate([{$indexStats{}}]) untuk mengidentifikasi indeks mana yang sedang digunakan. Anda dapat melakukan analisis yang lebih rinci dengan mengeksekusi kueri yang paling sering Anda gunakan. explainPlan

  • Distribusi konkurensi & beban kerja - Mengevaluasi rasio baca dan tulis, penyatuan koneksi, dan kemacetan kinerja.

Tinjauan keamanan dan kontrol akses

Otentikasi dan otorisasi

  • MongoDB RBAC ke Amazon DocumentDB IAM dan RBAC - Peta pengguna kontrol akses berbasis peran MongoDB dan peran ke kebijakan (IAM) dan pengguna otentikasi Amazon DocumentDB SCRAM. AWS Identity and Access Management

  • Strategi migrasi pengguna — Rencanakan untuk memigrasikan pengguna database, peran khusus, dan hak istimewa ke mekanisme autentikasi yang didukung Amazon DocumentDB.

  • Perbedaan hak istimewa - Identifikasi hak istimewa MongoDB tanpa ekuivalen Amazon DocumentDB langsung (misalnya, peran administrasi klaster).

  • Otentikasi aplikasi - Perbarui string koneksi dan manajemen kredensi untuk kebijakan kata sandi Amazon DocumentDB. Anda dapat menggunakan manajer rahasia untuk menyimpan kredensil Anda dan memutar kata sandi.

  • Manajemen akun layanan - Menetapkan proses untuk mengelola kredensi akun layanan di. AWS Secrets Manager

  • Implementasi hak istimewa terkecil - Tinjau dan perbaiki kontrol akses untuk menerapkan prinsip hak istimewa terkecil di lingkungan baru.

Enkripsi

Pastikan enkripsi saat istirahat dan dalam perjalanan selaras dengan persyaratan kepatuhan.

Konfigurasi jaringan

Rencanakan pengaturan Virtual Private Cloud (VPC) dan aturan grup keamanan.

Pertimbangan operasional dan pemantauan

Untuk menjaga keandalan sistem, penemuan beban kerja juga harus mencakup:

  • Strategi Backup dan Restore — Evaluasi metode backup yang ada dan kemampuan backup Amazon DocumentDB.

  • AWS Backup Integrasi — AWS Backup Memanfaatkan manajemen cadangan terpusat di seluruh AWS layanan termasuk Amazon DocumentDB.

  • CloudWatch metrik — Petakan metrik pemantauan MongoDB ke metrik Amazon DocumentDB untuk CPU, CloudWatch memori, koneksi, dan penyimpanan.

  • Performance Insights — Menerapkan Amazon DocumentDB Performance Insights untuk memvisualisasikan pemuatan database dan menganalisis masalah kinerja dengan analitik kueri terperinci.

  • Profiler - Konfigurasikan profiler Amazon DocumentDB untuk menangkap operasi yang berjalan lambat (mirip dengan profiler MongoDB tetapi dengan pengaturan khusus Amazon DocumentDB).

    • Aktifkan melalui grup parameter dengan ambang batas yang sesuai.

    • Menganalisis data profiler untuk mengidentifikasi peluang optimasi

  • CloudWatch Acara - Siapkan pemantauan berbasis peristiwa untuk peristiwa klaster Amazon DocumentDB.

    • Konfigurasikan notifikasi untuk acara pencadangan, jendela pemeliharaan, dan kegagalan.

    • Integrasikan dengan Amazon SNS untuk peringatan dan respons otomatis AWS Lambda .

  • Audit logging - Merencanakan konfigurasi pencatatan audit untuk melacak aktivitas pengguna dan peristiwa yang relevan dengan keamanan.

  • Pemantauan yang disempurnakan — Aktifkan pemantauan yang disempurnakan untuk metrik tingkat OS granular pada interval 1 detik.

Migrasi indeks

Migrasi dari MongoDB ke Amazon DocumentDB melibatkan transfer tidak hanya data tetapi juga indeks untuk mempertahankan kinerja kueri dan mengoptimalkan operasi database. Bagian ini menguraikan step-by-step proses terperinci untuk memigrasikan indeks dari MongoDB ke Amazon DocumentDB sambil memastikan kompatibilitas dan efisiensi.

Menggunakan alat indeks Amazon DocumentDB

Kloning alat indeks

git clone https://github.com/aws-samples/amazon-documentdb-tools.git cd amazon-documentdb-tools/index-tool
pip install -r requirements.txt

Ekspor indeks dari MongoDB (jika bermigrasi dari MongoDB)

python3 migrationtools/documentdb_index_tool.py --dump-indexes --dir mongodb_index_export --uri 'mongodb://localhost:27017'

Ekspor indeks dari Amazon DocumentDB (jika bermigrasi dari Amazon DocumentDB)

python3 migrationtools/documentdb_index_tool.py --dump-indexes --dir docdb_index_export --uri 'mongodb://user:password@mydocdb.cluster-cdtjj00yfi95.eu-west- 2.docdb.amazonaws.com:27017/?tls=true&tlsCAFile=rds-combined-ca- bundle.pem&replicaSet=rs0&retryWrites=false'

Indeks impor

python3 migrationtools/documentdb_index_tool.py --restore-indexes --skip-incompatible --dir mongodb_index_export --uri 'mongodb://user:password@mydocdb.cluster-cdtjj00yfi95.eu-west- 2.docdb.amazonaws.com:27017/?tls=true&tlsCAFile=rds-combined-ca- bundle.pem&replicaSet=rs0&retryWrites=false'

Verifikasi indeks

python3 migrationtools/documentdb_index_tool.py --show-issues --dir mongodb_index_export

Migrasi pengguna

Memigrasi pengguna dari MongoDB ke Amazon DocumentDB sangat penting untuk menjaga kontrol akses, otentikasi, dan keamanan database. Bagian ini menguraikan langkah-langkah terperinci untuk berhasil memigrasikan pengguna MongoDB sambil mempertahankan peran dan izin mereka menggunakan alat pengguna ekspor Amazon DocumentDB.

Menggunakan alat pengguna ekspor Amazon DocumentDB

Pengguna Export Users toolekspor dan peran dari MongoDB atau Amazon JavaScript DocumentDB ke file, yang kemudian dapat digunakan untuk membuat ulang mereka di cluster lain.

Prasyarat

# Clone the repository git clone https://github.com/awslabs/amazon-documentdb-tools.git cd amazon-documentdb-tools/migration/export-users
# Install required dependencies pip install pymongo

Langkah 1: Ekspor pengguna dan peran

# Export users and roles to JavaScript files python3 docdbExportUsers.py \ --users-file mongodb-users.js \ --roles-file mongodb-roles.js \ --uri "mongodb://admin:password@source-host:27017/"

Langkah 2: Edit File Pengguna

// Example of how to update the users.js file // Find each user creation statement and add the password db.getSiblingDB("admin").createUser({ user: "appuser", // Add password here pwd: "newpassword", roles: [ { role: "readWrite", db: "mydb" } ] })

Langkah 3: Kembalikan Peran Kustom ke Amazon DocumentDB

# Import roles first mongo --ssl \ --host target-host:27017 \ --sslCAFile rds-combined-ca-bundle.pem \ --username admin \ --password password \ mongodb-roles.js

Langkah 4: Kembalikan Pengguna ke Amazon DocumentDB

# Import users after roles are created mongo --ssl \ --host target-host:27017 \ --sslCAFile rds-combined-ca-bundle.pem \ --username admin \ --password password \ mongodb-users.js

Catatan penting

  • Kata sandi tidak diekspor untuk alasan keamanan dan harus ditambahkan secara manual ke file users.js.

  • Peran harus diimpor sebelum pengguna untuk memastikan penetapan peran yang tepat.

  • Alat ini menghasilkan JavaScript file yang dapat langsung dieksekusi dengan shell mongo.

  • Peran khusus dan hak istimewa mereka dipertahankan selama migrasi.

  • Pendekatan ini memungkinkan peninjauan dan modifikasi izin pengguna sebelum mengimpor.

Metode ini menyediakan pendekatan yang aman dan fleksibel untuk memigrasikan pengguna dan peran dari MongoDB ke Amazon DocumentDB sambil memungkinkan pengaturan ulang kata sandi selama proses migrasi.

Migrasi data

Migrasi online

Bagian ini memberikan langkah-langkah rinci untuk melakukan migrasi online dari MongoDB ke Amazon DocumentDB AWS DMS menggunakan untuk mengaktifkan downtime minimal dan replikasi berkelanjutan. Untuk memulai, Anda menyiapkan klaster Amazon DocumentDB sebagai target dan memastikan instans MongoDB Anda dikonfigurasi dengan benar sebagai sumber, biasanya memerlukan mode set replika untuk pengambilan data perubahan. Selanjutnya, Anda membuat instance replikasi DMS dan menentukan titik akhir sumber dan target dengan detail koneksi yang diperlukan. Setelah memvalidasi titik akhir, Anda mengonfigurasi dan memulai tugas migrasi yang dapat menyertakan pemuatan data penuh, replikasi berkelanjutan, atau keduanya.

Konfigurasikan target (Amazon DocumentDB)

catatan

Jika Anda sudah menyediakan klaster Amazon DocumentDB untuk bermigrasi, Anda dapat melewati langkah ini.

Buat grup parameter kustom

Lihat AWS Management Console atau AWS CLI prosedur diMembuat grup parameter cluster Amazon DocumentDB.

Buat cluster Amazon DocumentDB

catatan

Meskipun ada prosedur lain untuk membuat cluster Amazon DocumentDB dalam panduan ini, langkah-langkah di bagian ini berlaku khusus untuk tugas migrasi sejumlah besar data ke cluster baru.

  1. Masuk ke AWS Management Console, dan buka konsol Amazon DocumentDB di /docdb. https://console.aws.amazon.com

  2. Di panel navigasi, pilih Klaster.

    Tip

    Jika Anda tidak melihat panel navigasi di sisi kiri layar, pilih ikon menu (Hamburger menu icon with three horizontal lines.) di pojok kiri atas halaman.

  3. Di konsol manajemen Amazon DocumentDB, di bawah Klaster, pilih Buat.

  4. Pada halaman cluster Create Amazon DocumentDB, di bagian tipe Cluster, pilih cluster berbasis Instance (ini adalah opsi default).

  5. Di bagian konfigurasi Cluster:

    • Untuk pengidentifikasi Cluster, masukkan nama unik, sepertimydocdbcluster. Perhatikan bahwa konsol akan mengubah semua nama cluster menjadi huruf kecil terlepas dari bagaimana mereka dimasukkan.

    • Untuk versi Engine, pilih 5.0.0.

  6. Di bagian konfigurasi penyimpanan Cluster, biarkan pengaturan Standar Amazon DocumentDB apa adanya (ini adalah opsi default).

  7. Di bagian konfigurasi Instans:

    • Untuk kelas instans DB, pilih kelas yang dioptimalkan memori (termasuk kelas r) (ini adalah default).

    • Untuk kelas Instance, pilih kelas instance berdasarkan beban kerja. Misalnya:

      • db.r6g.large: untuk beban kerja yang lebih kecil

      • db.r6g.4xlarge: untuk beban kerja yang lebih besar

      Sebagai praktik terbaik, sebaiknya pilih instans sebesar yang Anda mampu untuk throughput beban penuh terbaik, dan turunkan skala setelah migrasi selesai.

    • Untuk Jumlah instance, pilih 1 instance. Memilih satu instans membantu meminimalkan biaya. Kami menyarankan Anda menskalakan ke tiga instans untuk ketersediaan tinggi setelah migrasi muatan penuh selesai.

  8. Di bagian Autentikasi, masukkan nama pengguna untuk pengguna utama, lalu pilih Self managed. Masukkan kata sandi, lalu konfirmasikan.

  9. Di bagian Pengaturan jaringan, pilih grup VPC dan subnet, lalu konfigurasikan grup keamanan VPC. Pastikan grup keamanan Amazon DocumentDB Anda mengizinkan koneksi masuk dari grup keamanan instans DMS dengan memperbarui aturan masuk.

  10. Di ncryption-at-rest bagian E, aktifkan enkripsi (disarankan) dan pilih atau masukkan kunci KMS.

  11. Di bagian Backup, atur periode retensi cadangan (1-35 hari).

  12. Tinjau konfigurasi Anda dan pilih Buat klaster.

    Waktu penyebaran biasanya memakan waktu antara 10 dan 15 menit,

Konfigurasikan sumber

MongoDB dan Amazon DocumentDB keduanya dapat berfungsi sebagai sumber migrasi, tergantung pada skenario Anda:

  • MongoDB sebagai sumber - Umum saat bermigrasi dari MongoDB lokal atau yang dikelola sendiri ke Amazon DocumentDB atau layanan database lainnya. AWS Memerlukan berjalan dalam mode set replika dengan oplog berukuran cukup (pastikan ukurannya untuk menahan semua operasi selama Beban Penuh) untuk mendukung pengambilan data perubahan selama migrasi.

  • Amazon DocumentDB sebagai sumber - Biasanya digunakan untuk replikasi lintas wilayah, peningkatan versi, atau migrasi ke layanan database lain seperti MongoDB Atlas. Mengaktifkan aliran perubahanDiperlukan dengan menyetel change_stream_log_retention_duration parameter dalam grup parameter cluster untuk menangkap perubahan yang sedang berlangsung selama migrasi. Pastikan change_stream_log_retention_duration pengaturan Anda cukup besar untuk menutupi waktu yang dibutuhkan untuk menyelesaikan Beban Penuh.

Sebelum memulai migrasi, konfigurasikan sumber Anda untuk mengizinkan AWS DMS akses.

Buat pengguna MongoDB dengan izin yang tepat:

db.createUser({ user: "dmsUser", pwd: "yourSecurePassword", roles: [{ role: "readAnyDatabase", db: "admin" }] })

Konfigurasikan jaringan dan otentikasi.

Saat mengonfigurasi konektivitas jaringan untuk MongoDB ke migrasi DMS:

EC2-sumber MongoDB yang dihosting

  • Ubah grup EC2 keamanan untuk mengizinkan lalu lintas masuk dari grup keamanan instance replikasi DMS.

  • Tambahkan aturan untuk port TCP 27017 (atau port MongoDB kustom Anda).

  • Gunakan ID grup keamanan instans replikasi DMS sebagai sumber untuk kontrol akses yang tepat.

  • Pastikan subnet EC2 instance memiliki rute ke subnet instance replikasi DMS.

Sumber MongoDB lokal

  • Konfigurasikan firewall Anda untuk memungkinkan koneksi masuk dari alamat IP publik instans replikasi DMS.

  • Jika menggunakan AWS Direct Connect atau VPN, pastikan perutean yang tepat antara jaringan Anda dan VPC yang berisi instance DMS.

  • Uji konektivitas menggunakan perintah telnet atau nc dari subnet DMS ke server MongoDB Anda.

Sumber MongoDB Atlas

  • Tambahkan alamat IP contoh replikasi DMS ke daftar izin MongoDB Atlas IP.

  • Konfigurasikan peering VPC antara VPC dan AWS MongoDB Atlas VPC jika Atlas berjalan. AWS

  • Siapkan AWS PrivateLink untuk konektivitas pribadi (Tingkat perusahaan), jika berjalan di penyedia cloud lain.

  • Buat pengguna khusus dengan read/write izin yang sesuai.

  • Gunakan string koneksi MongoDB Atlas dengan Mode SSL diatur ke “verify-full”.

  • Pastikan ukuran oplog yang cukup untuk durasi migrasi.

Sumber Amazon DocumentDB

Konfigurasikan grup keamanan Amazon DocumentDB sumber Anda untuk mengizinkan lalu lintas masuk dari grup keamanan instans replikasi DMS.

Buat contoh replikasi DMS

Sebaiknya gunakan DMS Buddy untuk menyediakan infrastruktur DMS Anda karena menciptakan infrastruktur migrasi yang optimal dengan pengaturan DMS dan ukuran instans yang optimal.

Jika Anda lebih suka mengkonfigurasi secara manual, ikuti langkah-langkah ini:

  1. Buka konsol AWS DMS dan pilih Create replication instance.

  2. Masukkan detail contoh replikasi:

    • Nama instance: Pilih nama yang unik.

    • Kelas instance: Pilih berdasarkan beban kerja. Contoh: dms.r5.large (beban kerja kecil), dms.r5.4xlarge (beban kerja besar).

    • Versi mesin: 3.5.4

    • Penyimpanan yang dialokasikan: Default adalah 100GB (meningkat jika diperlukan). Ini ditentukan oleh ukuran dokumen, updates/second dan durasi muat penuh.

    • Penerapan Multi-AZ: Aktifkan ketersediaan tinggi, jika diperlukan.

    • Pilih VPC yang sama dengan Amazon DocumentDB.

    • Pastikan grup Keamanan mengizinkan lalu lintas masuk dari sumber dan Amazon DocumentDB.

  3. Klik Buat contoh replikasi dan tunggu statusnya tersedia.

Buat titik akhir DMS

Buat titik akhir sumber

Untuk sumber MongoDB

  1. Di konsol DMS, di panel navigasi, pilih Migrasi atau replikasi, lalu pilih Endpoints.

  2. Pilih Buat titik akhir.

  3. Pada halaman Create endpoint, pilih Source endpoint.

  4. Di bagian konfigurasi Endpoint:

    • Masukkan pengenal Endpoint yang unik dan bermakna (misalnya, “mongodb-source”).

    • Pilih MongoDB sebagai mesin Sumber.

    • Untuk Mengakses ke basis data titik akhir, memilih Memberikan informasi untuk mengakses secara manual.

    • Untuk nama Server, masukkanMongoDB server DNS name/IP address.

    • Untuk Port, masukkan 27017 (port MongoDB default).

    • Untuk mode Otentikasi, pilih mode yang sesuai untuk aplikasi Anda (kata sandi/SSL) (default adalah manajer rahasia).

    • Jika mode Otentikasi adalah Kata Sandi, berikan:

      • Nama Pengguna dan Kata Sandi: Masukkan kredenal MongoDB.

      • Nama database: Nama basis data sumber Anda.

      • Mekanisme otentikasi: SCRAM-SHA-1 (default) atau mekanisme yang sesuai

  5. Untuk mode Metadata, tinggalkan pengaturan default dokumen.

  6. Atribut koneksi tambahan:

    • authSource=admin (jika database otentikasi berbeda)

    • Replicaset=< your-replica-set-name > (diperlukan untuk CDC)

Untuk sumber Amazon DocumentDB

  1. Di konsol DMS, di panel navigasi, pilih Migrasi atau replikasi, lalu pilih Endpoints.

  2. Pilih Buat titik akhir.

  3. Pada halaman Create endpoint, pilih Source endpoint.

  4. Di bagian konfigurasi Endpoint:

    • Masukkan pengenal Endpoint yang unik dan bermakna (misalnya, “docdb-source”).

    • Pilih Amazon DocumentDB sebagai mesin Sumber.

    • Untuk Mengakses ke basis data titik akhir, memilih Memberikan informasi untuk mengakses secara manual.

    • Untuk nama Server, masukkansource Amazon DocumentDB cluster endpoint.

    • Untuk Port, masukkan 27017 (port Amazon DocumentDB default).

    • Untuk mode SSL, pilih verify-full (direkomendasikan untuk Amazon DocumentDB).

    • Untuk Sertifikat CA, pilih sertifikat CA root Amazon RDS.

    • Untuk mode Otentikasi, pilih mode yang sesuai untuk aplikasi Anda (kata sandi/SSL) (default adalah manajer rahasia).

    • Jika mode Otentikasi adalah Kata Sandi, berikan:

      • Nama Pengguna dan Kata Sandi: Masukkan kredenal Amazon DocumentDB.

      • Nama database: Nama basis data sumber Anda.

      • Mekanisme otentikasi: SCRAM-SHA-1 (default) atau mekanisme yang sesuai

  5. Untuk mode Metadata, tinggalkan pengaturan default dokumen.

Buat titik akhir target (Amazon DocumentDB)
  1. Di konsol DMS, di panel navigasi, pilih Migrasi atau replikasi, lalu pilih Endpoints.

  2. Pilih Buat titik akhir.

  3. Pada halaman Create endpoint, pilih Target endpoint.

  4. Di bagian konfigurasi Endpoint:

    • Masukkan pengenal Endpoint yang unik dan bermakna (misalnya, “docdb-target”).

    • Pilih Amazon DocumentDB sebagai mesin Target.

    • Untuk Access to endpoint database, pilih metode yang ingin Anda gunakan untuk mengautentikasi akses ke database:

      • Jika Anda memilih AWS Secrets Manager, pilih rahasia tempat Anda menyimpan kredensi Amazon DocumentDB Anda di bidang Rahasia.

      • Jika Anda memilih Menyediakan informasi akses secara manual:

        • Untuk nama Server, masukkantarget Amazon DocumentDB cluster endpoint.

        • Untuk Port, masukkan 27017 (port Amazon DocumentDB default).

        • Untuk mode SSL, pilih verify-full (direkomendasikan untuk Amazon DocumentDB).

        • Untuk Sertifikat CA, unduh dan tentukan bundel sertifikat CA untuk verifikasi SSL.

        • Untuk mode Otentikasi, pilih mode yang sesuai untuk aplikasi Anda (kata sandi/SSL) (default adalah manajer rahasia).

        • Jika mode Otentikasi adalah Kata Sandi, berikan:

          • Nama Pengguna dan Kata Sandi: Masukkan kredenal Amazon DocumentDB.

          • Nama database: Nama basis data sumber Anda.

          • Mekanisme otentikasi: SCRAM-SHA-1 (default) atau mekanisme yang sesuai

  5. Untuk mode Metadata, tinggalkan pengaturan default dokumen.

Buat tugas replikasi

  1. Di konsol DMS, di panel navigasi, pilih Migrasi atau replikasi, lalu pilih Tugas.

  2. Pilih Buat tugas.

  3. Pada halaman Buat tugas, di bagian Konfigurasi tugas:

    • Masukkan pengidentifikasi Tugas yang unik dan bermakna (misalnya, "mongodb-docdb-replication“).

    • Pilih titik akhir sumber yang Anda buat sebelumnya di menu drop-down titik akhir database Sumber.

    • Pilih titik akhir target yang Anda buat sebelumnya di menu tarik-turun titik akhir database Target.

    • Untuk jenis Tugas, pilih Migrasi dan replikasi.

  4. Di bagian Pengaturan:

    • Untuk mode persiapan tabel Target, tinggalkan pengaturan default.

    • Untuk tugas Stop setelah beban penuh selesai, tinggalkan pengaturan default.

    • Untuk pengaturan kolom LOB, biarkan pengaturan mode LOB Terbatas apa adanya.

    • Untuk validasi Data, biarkan pengaturan default Matikan.

    • Untuk log Tugas, centang kotak Aktifkan CloudWatch log.

    • Untuk penerapan yang dioptimalkan untuk Batch, biarkan pengaturan default tidak dicentang (mati).

  5. Kembali di bagian atas Pengaturan tugas, dalam mode Pengeditan, pilih editor JSON dan atur atribut berikut:

    { "TargetMetadata": { "ParallelApplyThreads": 5 }, "FullLoadSettings": { "MaxFullLoadSubTasks": 16 } }
  6. Di bagian Pemetaan tabel, tambahkan aturan pemilihan baru:

    • Untuk nama Skema, tambahkan database sumber untuk bermigrasi. Gunakan% untuk menentukan beberapa database.

    • Untuk nama tabel Skema, tambahkan koleksi sumber untuk bermigrasi. Gunakan% untuk menentukan beberapa koleksi.

    • Untuk Tindakan, tinggalkan pengaturan default Sertakan

  7. Untuk koleksi besar (lebih dari 100GB), tambahkan aturan pengaturan Tabel:

    • Untuk nama Skema, tambahkan database sumber untuk bermigrasi. Gunakan% untuk menentukan beberapa database.

    • Untuk nama tabel Skema, tambahkan koleksi sumber untuk bermigrasi. Gunakan% untuk menentukan beberapa koleksi.

    • Untuk Jumlah partisi, masukkan 16 (harus kurang dariMaxFullLoadSubTask).

  8. Di bagian penilaian Premigrasi, pastikan dimatikan.

Migrasi offline

Bagian ini menguraikan proses untuk melakukan migrasi offline dari instance MongoDB yang dikelola sendiri ke Amazon DocumentDB menggunakan alat MongoDB asli: dan. mongodump mongorestore

Prasyarat

Sumber persyaratan MongoDB

  • Akses ke instance MongoDB sumber dengan izin yang sesuai.

  • Instalmongodump. jika diperlukan (diinstal selama instalasi MongoDB).

  • Pastikan ada cukup ruang disk untuk file dump.

Targetkan persyaratan Amazon DocumentDB

  • Pastikan Anda memiliki klaster Amazon DocumentDB yang disediakan.

  • Pastikan ada EC2 instance di VPC yang sama dengan Amazon DocumentDB untuk memfasilitasi migrasi.

  • Konektivitas jaringan harus tersedia antara lingkungan sumber Anda dan Amazon DocumentDB.

  • mongorestore harus diinstal pada instance migrasi EC2 .

  • Izin IAM yang sesuai harus dikonfigurasi untuk mengakses Amazon DocumentDB,

Persyaratan umum

  • AWS CLI harus dikonfigurasi (jika menggunakan AWS layanan untuk penyimpanan menengah)

  • Bandwidth yang cukup harus tersedia untuk transfer data.

  • Jendela downtime harus disetujui (jika melakukan migrasi langsung, pertimbangkan pendekatan lain)

Siapkan cluster Amazon DocumentDB

Buat cluster Amazon DocumentDB di: AWS

  • Tepat ukuran instans berdasarkan beban kerja Anda.

  • Konfigurasikan VPC, subnet, dan grup keamanan.

  • Aktifkan parameter yang diperlukan melalui grup parameter.

Lakukan dump data (mongodump)

Pilih salah satu opsi berikut untuk membuat file dump:

  • Opsi 1: Dasar

    mongodump -- uri="mongodb://<source_user>:<source_password>@<source_host>:<source_port>/<database>" -- out=/path/to/dump
  • Opsi 2: Kontrol dan kinerja yang lebih baik

    mongodump \ --uri="mongodb://<source_user>:<source_password>@<sourcehost>:<source_port>" \ --out=/path/to/dump \ --gzip \# Compress output --numParallelCollections=4 \# Parallel collections dump --ssl \# If using SSL --authenticationDatabase=admin \ # If auth is required --readPreference=secondaryPreferred # If replica set
  • Opsi 3: Database besar

    mongodump \ --host=<source_host> \ --port=<source_port> \ --username=<source_user> \ --password=<source_password> \ --db=<specific_db> \# Only dump specific DB --collection=<specific_collection> \ # Only dump specific collection --query='{ "date": { "$gt": "2020-01-01" } }' \ # Filter documents --archive=/path/to/archive.gz \# Single archive output --gzip \ --ssl

Transfer file dump ke lingkungan restorasi

Pilih metode yang sesuai berdasarkan ukuran dump Anda:

  • Kecil - Langsung salin ke mesin migrasi Anda (EC2 contoh yang Anda buat sebelumnya):

    scp -r /path/to/dump user@migration-machine:/path/to/restore
  • Sedang - Gunakan Amazon S3 sebagai penyimpanan perantara:

    aws s3 cp --recursive /path/to/dump s3://your-bucket/mongodb-dump/
  • Besar — Untuk database yang sangat besar, pertimbangkan AWS DataSync atau transfer fisik.

Mengembalikan data ke Amazon DocumentDB (mongorestore)

Sebelum memulai proses pemulihan, buat indeks di Amazon DocumentDB. Anda dapat menggunakan alat Amazon DocumentDB Index untuk mengekspor dan mengimpor indeks.

Pilih salah satu opsi berikut untuk memulihkan data:

  • Opsi 1: Pemulihan dasar

    mongorestore --uri="mongodb://<docdb_user>:<docdb_password>@<docdb_endpoint>:27017" /path/to/dump
  • Opsi 2: Kontrol dan kinerja yang lebih baik

    mongorestore \ --uri="mongodb://<docdb_user>:<docdb_password>@<docdb_endpoint>:27017" \ --ssl \ --sslCAFile=/path/to/rds-combined-ca-bundle.pem \ # DocumentDB CA cert --gzip \# If dumped with gzip --numParallelCollections=4 \# Parallel restoration --numInsertionWorkersPerCollection=4 \# Parallel documents insertion --noIndexRestore \# skip indexes as they are pre-created /path/to/dump
  • Opsi 3: Database besar atau kontrol khusus

    mongorestore \ --host=<docdb_endpoint> \ --port=27017 \ --username=<docdb_user> \ --password=<docdb_password> \ --ssl \ --sslCAFile=/path/to/rds-combined-ca-bundle.pem \ --archive=/path/to/archive.gz \# If using archive format --gzip \ --nsInclude="db1.*" \# Only restore specific namespaces --nsExclude="db1.sensitive_data" \ # Exclude specific collections if needed --noIndexRestore \# skip indexes as they are pre-created --writeConcern="{w: 'majority'}" # Ensure write durability

Pemantauan

Bagian ini menyediakan proses pemantauan terperinci untuk melacak kemajuan, kinerja, dan kesehatan migrasi yang sedang berlangsung dari:

MongoDB ke Amazon DocumentDB

atau

Amazon DocumentDB ke Amazon DocumentDB

Langkah-langkah pemantauan berlaku terlepas dari metode migrasi (AWS DMS, mongodump/mongorestore, atau alat lainnya).

AWS DMS Pemantauan migrasi (jika ada)

Pantau CloudWatch metrik utama berikut:

Metrik fase beban penuh

  • FullLoadThroughputBandwidthTarget- Bandwidth jaringan (KB/detik) selama beban penuh

  • FullLoadThroughputRowsTarget— Jumlah rows/documents dimuat per detik

  • FullLoadThroughputTablesTarget— Jumlah tables/collections selesai per menit

  • FullLoadProgressPercent— Persentase beban penuh selesai

  • TablesLoaded— Jumlah yang tables/collections berhasil dimuat

  • TablesLoading— Jumlah pemuatan tables/collections saat ini

  • TablesQueued— Jumlah tables/collections menunggu untuk dimuat

  • TablesErrored— Jumlah tables/collections yang gagal dimuat

Metrik fase CDC

  • CDCLatencyTarget - Waktu tunda (detik) antara perubahan sumber dan aplikasi target

  • CDCLatencySumber - Waktu tunda (detik) antara perubahan sumber dan DMS membacanya

  • CDCThroughputRowsTarget— Baris per detik diterapkan selama replikasi yang sedang berlangsung

  • CDCThroughputBandwidthTarget— Bandwidth jaringan (KB/detik) selama CDC

  • CDCIncomingPerubahan — Jumlah peristiwa perubahan yang diterima dari sumber

  • CDCChangesMemoryTarget— Memori yang digunakan (MB) untuk menyimpan perubahan di sisi target

Metrik sumber daya

  • CPUUtilization— Penggunaan CPU dari contoh replikasi

  • FreeableMemory— Memori yang tersedia pada contoh replikasi

  • FreeStorageSpace— Penyimpanan yang tersedia pada contoh replikasi

  • NetworkTransmitThroughput— Throughput jaringan untuk contoh replikasi

  • NetworkReceiveThroughput— Throughput jaringan untuk contoh replikasi

Metrik kesalahan

  • ErrorsCount— Jumlah total kesalahan selama migrasi

  • TableErrorsCount— Jumlah kesalahan khusus tabel

  • RecordsErrorsCount— Jumlah kesalahan khusus catatan

Buat CloudWatch alarm untuk metrik penting seperti CDCLatencyTarget dan CPUUtilization untuk menerima pemberitahuan jika kinerja migrasi menurun.

Log DMS (CloudWatch log)

  1. Buka konsol Amazon CloudWatch Logs.

  2. Temukan dan pilih pada grup log Anda. Ini akan terlihat mirip dengan “dms-tasks —”.

  3. Cari aliran log yang mungkin berisi informasi kesalahan:

    • Streaming dengan “kesalahan” dalam nama

    • Streaming dengan nama tugas IDs atau titik akhir

    • Aliran log terbaru selama migrasi

  4. Dalam aliran ini, cari kata kunci seperti:

    • “kesalahan”

    • “pengecualian”

    • “Gagal”

    • “peringatan”

Status tugas DMS (menggunakan AWS CLI)

aws dms describe-replication-tasks --filters Name=replication-task id,Values=<task_id> --query "ReplicationTasks[0].Status"

Aliran status yang diharapkan:

membuat → siap → berjalan → berhenti → berhenti (atau gagal)

Monitor menggunakan docdb-dashboarder

docdb-dashboarderAlat ini menyediakan pemantauan komprehensif untuk cluster Amazon DocumentDB dengan secara otomatis CloudWatch menghasilkan dasbor dengan metrik kinerja penting. Dasbor ini menampilkan metrik tingkat klaster kritis (lag replika, penghitung operasi), metrik tingkat instans (CPU, memori, koneksi), dan metrik penyimpanan (penggunaan volume, penyimpanan cadangan). Untuk skenario migrasi, alat ini menawarkan dasbor khusus yang melacak kemajuan migrasi dengan metrik seperti lag replikasi CDC dan kecepatan operasi. Dasbor dapat memantau beberapa cluster secara bersamaan dan menyertakan dukungan untuk instance yang NVMe didukung. Dengan memvisualisasikan metrik ini, tim dapat secara proaktif mengidentifikasi kemacetan kinerja, mengoptimalkan alokasi sumber daya, dan memastikan kelancaran pengoperasian penerapan Amazon DocumentDB mereka. Alat ini menghilangkan kebutuhan akan pembuatan dasbor manual sambil memberikan pemantauan yang konsisten di semua lingkungan. Untuk petunjuk penyiapan dan opsi konfigurasi lanjutan, lihat repositori Alat Dasbor Amazon DocumentDB. GitHub

Validasi

Bagian ini menyediakan proses validasi terperinci untuk memastikan konsistensi data, integritas, dan kompatibilitas aplikasi setelah bermigrasi dari:

MongoDB ke Amazon DocumentDB

atau

Amazon DocumentDB ke Amazon DocumentDB

Langkah-langkah validasi berlaku terlepas dari metode migrasi (AWS DMS, mongodump/mongorestore, atau alat lainnya).

Daftar periksa validasi

Verifikasi bahwa jumlah dokumen di setiap koleksi cocok antara sumber dan target:

Sumber MongoDB

mongo --host <source_host> --port <port> --username <user> -- password <password> --eval "db.<collection>.count()"

Target Amazon DocumentDB

mongo --host <target_host> --port <port> --username <user> -- password <password> --eval "db.<collection>.count()"

Skema dan validasi indeks

Pastikan bahwa:

  • semua koleksi ada di target.

  • indeks direplikasi dengan benar.

  • definisi skema (jika ditegakkan) identik.

Periksa koleksi (sumber vs. target)

mongo --host <source_host> --eval "show collections" mongo --host <target_host> --ssl --eval "show collections"

periksa indeks (Sumber vs Target)

mongo --host <source_host> --eval" db.<collection>.getIndexes()" mongo --host <target_host> --ssl –eval" db.<collection>.getIndexes()"

Bandingkan daftar koleksi untuk memastikan tidak ada koleksi yang hilang atau tambahan.

Verifikasi indeks dengan memeriksa nama indeks, definisi kunci, kendala unik, dan indeks TTL (jika ada).

Periksa aturan validasi skema (jika menggunakan validasi skema di MongoDB)

mongo --host <source_host> --eval" db.getCollectionInfos({name: '<collection>'}) [0].options.validator" mongo --host <target_host> --ssl –eval" db.getCollectionInfos({name: '<collection>'})[0].options.validator"

Pengambilan sampel data dan validasi tingkat lapangan

Anda dapat secara acak sampel dokumen dan membandingkan bidang antara sumber dan target.

Pengambilan sampel manual

Ambil lima dokumen acak (sumber):

mongo --host <source_host> --eval "db.<collection>.aggregate([{ \$sample: { size: 5 } }])"

Ambil dokumen yang sama IDs (target):

mongo --host <target_host> --ssl –eval "db.<collection>.find({ _id: { \$in: [<list_of_ids>] } })"

Pengambilan sampel otomatis

import pymongo # Connect to source and target source_client = pymongo.MongoClient("<source_uri>") target_client = pymongo.MongoClient("<target_uri>", ssl=True) source_db = source_client["<db_name>"] target_db = target_client["<db_name>"] # Compare 100 random documents for doc in source_db.<collection>.aggregate([{ "$sample": { "size": 100 } }]): target_doc = target_db.<collection>.find_one({ "_id": doc["_id"] }) if target_doc != doc: print(f"❌ Mismatch in _id: {doc['_id']}") else: print(f"✅ Match: {doc['_id']}")

Validasi menggunakan alat DataDiffer

DataDiffer Alat ini menyediakan cara yang andal untuk membandingkan data antara basis data sumber dan target.

Prasyarat

Prasyarat berikut harus dipenuhi sebelum menginstal alat: DataDiffer

  • Python 3.7+

  • PyMongo perpustakaan

  • Konektivitas jaringan ke MongoDB sumber dan target cluster Amazon DocumentDB

Penyiapan dan instalasi

Kloning repositori dan arahkan ke direktori DataDiffer

git clone https://github.com/awslabs/amazon-documentdb-tools.git cd amazon-documentdb-tools/migration/data-differ

Instal dependensi yang diperlukan

pip install -r requirements.txt

Menjalankan validasi data

Buat file konfigurasi (misalnya, config.json) dengan detail koneksi

{ "source": { "uri": "mongodb://username:password@source-mongodb- host:27017/?replicaSet=rs0", "db": "your_database", "collection": "your_collection" }, "target": { "uri": "mongodb://username:password@target-docdb- cluster.region.docdb.amazonaws.com:27017/?tls=true&tlsCAFile=global- bundle.pem&replicaSet=rs0", "db": "your_database", "collection": "your_collection" }, "options": { "batch_size": 1000, "threads": 4, "sample_size": 0, "verbose": true } }

Jalankan DataDiffer alat

python differ.py --config config.json

Untuk koleksi besar, gunakan sampling untuk memvalidasi subset data

python differ.py --config config.json --sample-size 10000

Untuk memvalidasi beberapa koleksi, buat file konfigurasi terpisah atau gunakan mode batch

python differ.py --batch-config batch_config.json

Menafsirkan hasil

Alat akan menampilkan:

  • Total dokumen dalam sumber dan target

  • Jumlah dokumen yang cocok

  • Jumlah dokumen yang hilang

  • Jumlah dokumen dengan perbedaan

  • Laporan rinci perbedaan (jika ada)

Praktik terbaik

Berikut ini adalah praktik terbaik saat menggunakan DataDiffer alat ini:

  • Jalankan secara bertahap — Pertama validasi jumlah dokumen, lalu sampel dokumen kunci, dan akhirnya jalankan perbandingan lengkap, jika diperlukan.

  • Periksa perbedaan skema - Amazon DocumentDB memiliki beberapa keterbatasan dibandingkan dengan MongoDB. Alat ini akan menyoroti tipe atau struktur data yang tidak kompatibel.

  • Validasi selama periode tenang - Jalankan validasi saat operasi tulis minimal untuk memastikan konsistensi.

  • Memantau penggunaan sumber daya — Proses perbandingan bisa intensif sumber daya. Sesuaikan ukuran batch dan jumlah utas yang sesuai.

  • Validasi indeks - Setelah validasi data, pastikan semua indeks yang diperlukan telah dibuat pada klaster Amazon DocumentDB target.

  • Hasil validasi dokumen — Menyimpan catatan hasil validasi untuk setiap koleksi sebagai bagian dari dokumentasi migrasi Anda.