RedshiftCopyActivity

Menyalin data dari DynamoDB atau Amazon S3 ke Amazon Redshift. Anda dapat memuat data ke dalam tabel baru, atau dengan mudah menggabungkan data ke dalam tabel yang ada.

Berikut ini adalah gambaran umum kasus penggunaan di mana untuk menggunakan RedshiftCopyActivity:

Mulailah dengan menggunakan AWS Data Pipeline untuk mementaskan data Anda di Amazon S3.
Gunakan RedshiftCopyActivity untuk memindahkan data dari Amazon RDS dan Amazon EMR ke Amazon Redshift.

Hal ini memungkinkan Anda memuat data Anda ke Amazon Redshift di mana Anda dapat menganalisisnya.
Gunakan SqlActivity untuk melakukan kueri SQL pada data yang Anda telah muat ke Amazon Redshift.

Selain itu, RedshiftCopyActivity memungkinkan Anda bekerja dengan S3DataNode, karena men-support file manifes. Untuk informasi selengkapnya, lihat S3 DataNode.

Contoh

Berikut adalah contoh dari jenis objek ini.

Untuk memastikan konversi format, contoh ini menggunakan parameter konversi khusus EMPTYASNULL dan IGNOREBLANKLINES di commandOptions. Untuk informasi, lihat Parameter Konversi Data di Panduan Developer Basis Data Amazon Redshift.


{
  "id" : "S3ToRedshiftCopyActivity",
  "type" : "RedshiftCopyActivity",
  "input" : { "ref": "MyS3DataNode" },
  "output" : { "ref": "MyRedshiftDataNode" },
  "insertMode" : "KEEP_EXISTING",
  "schedule" : { "ref": "Hour" },
  "runsOn" : { "ref": "MyEc2Resource" },
  "commandOptions": ["EMPTYASNULL", "IGNOREBLANKLINES"]
}

Definisi contoh alur berikut menunjukkan aktivitas yang menggunakan mode sisipan APPEND:


{
  "objects": [
    {
      "id": "CSVId1",
      "name": "DefaultCSV1",
      "type": "CSV"
    },
    {
      "id": "RedshiftDatabaseId1",
      "databaseName": "dbname",
      "username": "user",
      "name": "DefaultRedshiftDatabase1",
      "*password": "password",
      "type": "RedshiftDatabase",
      "clusterId": "redshiftclusterId"
    },
    {
      "id": "Default",
      "scheduleType": "timeseries",
      "failureAndRerunMode": "CASCADE",
      "name": "Default",
      "role": "DataPipelineDefaultRole",
      "resourceRole": "DataPipelineDefaultResourceRole"
    },
    {
      "id": "RedshiftDataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "tableName": "orders",
      "name": "DefaultRedshiftDataNode1",
      "createTableSql": "create table StructuredLogs (requestBeginTime CHAR(30) PRIMARY KEY DISTKEY SORTKEY, requestEndTime CHAR(30), hostname CHAR(100), requestDate varchar(20));",
      "type": "RedshiftDataNode",
      "database": {
        "ref": "RedshiftDatabaseId1"
      }
    },
    {
      "id": "Ec2ResourceId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "securityGroups": "MySecurityGroup",
      "name": "DefaultEc2Resource1",
      "role": "DataPipelineDefaultRole",
      "logUri": "s3://myLogs",
      "resourceRole": "DataPipelineDefaultResourceRole",
      "type": "Ec2Resource"
    },
    {
      "id": "ScheduleId1",
      "startDateTime": "yyyy-mm-ddT00:00:00",
      "name": "DefaultSchedule1",
      "type": "Schedule",
      "period": "period",
      "endDateTime": "yyyy-mm-ddT00:00:00"
    },
    {
      "id": "S3DataNodeId1",
      "schedule": {
        "ref": "ScheduleId1"
      },
      "filePath": "s3://datapipeline-us-east-1/samples/hive-ads-samples.csv",
      "name": "DefaultS3DataNode1",
      "dataFormat": {
        "ref": "CSVId1"
      },
      "type": "S3DataNode"
    },
    {
      "id": "RedshiftCopyActivityId1",
      "input": {
        "ref": "S3DataNodeId1"
      },
      "schedule": {
        "ref": "ScheduleId1"
      },
      "insertMode": "APPEND",
      "name": "DefaultRedshiftCopyActivity1",
      "runsOn": {
        "ref": "Ec2ResourceId1"
      },
      "type": "RedshiftCopyActivity",
      "output": {
        "ref": "RedshiftDataNodeId1"
      }
    }
  ]
}

Operasi APPEND menambahkan item ke tabel terlepas dari primer atau semacam kunci. Misalnya, jika Anda memiliki tabel berikut, Anda dapat menambahkan catatan dengan ID dan nilai pengguna yang sama.


ID(PK)     USER
1          aaa
2          bbb

Anda dapat menambahkan catatan dengan ID dan nilai pengguna yang sama:


ID(PK)     USER
1          aaa
2          bbb
1          aaa

catatan

Jika operasi APPEND terganggu dan dicoba lagi, alur jalankan kembali yang dihasilkan berpotensi ditambahkan dari awal. Hal ini dapat menyebabkan duplikasi lebih lanjut, sehingga Anda harus menyadari perilaku ini, terutama jika Anda memiliki logika yang menghitung jumlah baris.

Untuk tutorial, lihat Salin Data ke Amazon Redshift Menggunakan AWS Data Pipeline.

Sintaksis

Bidang yang Wajib Diisi Deskripsi Jenis Slot

insertMode

Bidang yang Wajib Diisi	Deskripsi	Jenis Slot
insertMode	Menentukan AWS Data Pipeline apa yang dilakukan dengan data yang sudah ada sebelumnya dalam tabel target yang tumpang tindih dengan baris dalam data yang akan dimuat. Nilai yang valid adalah: `KEEP_EXISTING`, `OVERWRITE_EXISTING`, `TRUNCATE`, dan `APPEND`. `KEEP_EXISTING` menambahkan baris baru ke meja, sementara meninggalkan setiap baris yang ada dimodifikasi. `KEEP_EXISTING` dan `OVERWRITE_EXISTING` menggunakan kunci primer, urutkan, dan kunci distribusi untuk mengidentifikasi baris yang masuk untuk mencocokkan dengan baris yang ada. Lihat Memperbarui dan Memasukkan Data Baru di Amazon Redshift Panduan Developer Basis Data. `TRUNCATE` menghapus semua data dalam tabel tujuan sebelum menulis data baru. `APPEND` menambahkan semua catatan ke akhir tabel Redshift. `APPEND` tidak memerlukan primer, kunci distribusi, atau menyortir kunci sehingga item yang mungkin merupakan duplikat potensial dapat ditambahkan.	Pencacahan

Menentukan AWS Data Pipeline apa yang dilakukan dengan data yang sudah ada sebelumnya dalam tabel target yang tumpang tindih dengan baris dalam data yang akan dimuat.

Nilai yang valid adalah: KEEP_EXISTING, OVERWRITE_EXISTING, TRUNCATE, dan APPEND.

KEEP_EXISTING menambahkan baris baru ke meja, sementara meninggalkan setiap baris yang ada dimodifikasi.

KEEP_EXISTING dan OVERWRITE_EXISTING menggunakan kunci primer, urutkan, dan kunci distribusi untuk mengidentifikasi baris yang masuk untuk mencocokkan dengan baris yang ada. Lihat Memperbarui dan Memasukkan Data Baru di Amazon Redshift Panduan Developer Basis Data.

TRUNCATE menghapus semua data dalam tabel tujuan sebelum menulis data baru.

APPEND menambahkan semua catatan ke akhir tabel Redshift. APPEND tidak memerlukan primer, kunci distribusi, atau menyortir kunci sehingga item yang mungkin merupakan duplikat potensial dapat ditambahkan.

Pencacahan

Bidang Invokasi Objek Deskripsi Jenis Slot

jadwal

Bidang Invokasi Objek	Deskripsi	Jenis Slot
jadwal	Objek ini dipanggil dalam pelaksanaan interval jadwal. Tentukan referensi jadwal ke objek lain untuk mengatur urutan eksekusi dependensi untuk objek ini. Dalam kebanyakan kasus, kami rekomendasikan untuk menempatkan referensi jadwal pada objek alur default sehingga semua objek mewarisi jadwal itu. Misalnya, Anda dapat dengan secara eksplisit mengatur jadwal pada objek dengan menentukan `"schedule": {"ref": "DefaultSchedule"}`. Jika jadwal utama dalam alur Anda berisi jadwal nested, buat objek induk yang memiliki jadwal referensi. Untuk informasi selengkapnya tentang contoh konfigurasi jadwal opsional, lihat Jadwal.	Objek Referensi, seperti: `"schedule":{"ref":"myScheduleId"}`

Objek ini dipanggil dalam pelaksanaan interval jadwal.

Tentukan referensi jadwal ke objek lain untuk mengatur urutan eksekusi dependensi untuk objek ini.

Dalam kebanyakan kasus, kami rekomendasikan untuk menempatkan referensi jadwal pada objek alur default sehingga semua objek mewarisi jadwal itu. Misalnya, Anda dapat dengan secara eksplisit mengatur jadwal pada objek dengan menentukan "schedule": {"ref": "DefaultSchedule"}.

Jika jadwal utama dalam alur Anda berisi jadwal nested, buat objek induk yang memiliki jadwal referensi.

Untuk informasi selengkapnya tentang contoh konfigurasi jadwal opsional, lihat Jadwal.

Objek Referensi, seperti: "schedule":{"ref":"myScheduleId"}

Grup yang diperlukan (Salah satu dari berikut ini diperlukan)	Deskripsi	Jenis Slot
runsOn	Sumber daya komputasi untuk menjalankan aktivitas atau perintah. Misalnya, EC2 instans Amazon atau kluster EMR Amazon.	Objek Referensi, misalnya “RunsOn”: {"ref”:” “} myResourceId
workerGroup	Kelompok pekerja. Ini digunakan untuk tugas perutean. Jika Anda memberikan nilai `runsOn` dan `workerGroup` ada, workerGroup akan diabaikan.	String

Bidang Opsional	Deskripsi	Jenis Slot
attemptStatus	Baru-baru ini melaporkan status dari aktivitas jarak jauh.	String
attemptTimeout	Timeout untuk penyelesaian pekerjaan jarak jauh. Jika disetel, maka aktivitas jarak jauh yang tidak lengkap dalam waktu mulai yang ditetapkan mungkin dicoba lagi.	Periode
commandOptions	Membawa parameter untuk diteruskan ke simpul data Amazon Redshift selama operasi `COPY`. Untuk informasi tentang parameter, lihat COPY di Panduan Developer Basis Data Amazon Redshift. Saat memuat tabel, `COPY` mencoba untuk secara implisit mengkonversi rangkaian ke tipe data dari kolom target. Selain konversi data default yang terjadi secara otomatis, jika Anda menerima kesalahan atau memiliki kebutuhan konversi lainnya, Anda dapat menentukan parameter konversi tambahan. Untuk informasi, lihat Parameter Konversi Data di Amazon Redshift Panduan Developer Basis Data. Jika format data dikaitkan dengan input atau output simpul data, maka parameter yang disediakan akan diabaikan. Karena operasi penyalinan pertama kali menggunakan `COPY` untuk memasukkan data ke dalam tabel staging, dan kemudian menggunakan perintah `INSERT` untuk menyalin data dari tabel staging ke tabel tujuan, beberapa parameter `COPY` tidak berlaku, seperti kemampuan perintah `COPY` untuk mengaktifkan kompresi otomatis tabel. Jika kompresi diperlukan, menambahkan detail pengkodean kolom ke pernyataan `CREATE TABLE`. Juga, dalam beberapa kasus ketika perlu membongkar data dari klaster Amazon Redshift dan membuat file di Amazon S3, `RedshiftCopyActivity` bergantung pada operasi `UNLOAD` dari Amazon Redshift. Untuk meningkatkan performa selama penyalinan dan pembongkaran, tentukan parameter `PARALLEL OFF` dari perintah `UNLOAD`. Untuk informasi tentang parameter, lihat UNLOAD di Amazon Redshift Panduan Developer Basis Data.	String
dependsOn	Tentukan dependensi pada objek yang bisa dijalankan lainnya.	Objek Referensi: `"dependsOn":{"ref":"myActivityId"}`
failureAndRerunModus	Menjelaskan perilaku simpul konsumen ketika dependensi gagal atau menjalankan kembali	Pencacahan
input	Simpul data input. Sumber data bisa jadi Amazon S3, DynamoDB, atau Amazon Redshift.	Objek Referensi: `"input":{"ref":"myDataNodeId"}`
lateAfterTimeout	Waktu berlalu setelah alur mulai di mana objek harus menyelesaikan. Hal ini dipicu hanya ketika jenis jadwal tidak disetel ke `ondemand`.	Periode
maxActiveInstances	Jumlah maksimum instans aktif bersamaan dari suatu komponen. Re-runs tidak dihitung terhadap jumlah instans aktif.	Bilangan Bulat
maximumRetries	Jumlah maksimum percobaan ulang pada pelanggaran	Bilangan Bulat
onFail	Tindakan untuk dijalankan ketika objek saat ini gagal.	Objek Referensi: `"onFail":{"ref":"myActionId"}`
onLateAction	Tindakan yang harus dipicu jika objek belum dijadwalkan atau masih belum selesai.	Objek Referensi: `"onLateAction":{"ref":"myActionId"}`
onSuccess	Tindakan untuk dijalankan ketika objek saat ini berhasil.	Objek Referensi: `"onSuccess":{"ref":"myActionId"}`
output	Simpul data output. Lokasi output bisa jadi Amazon S3 atau Amazon Redshift.	Objek Referensi: `"output":{"ref":"myDataNodeId"}`
induk	Induk dari objek saat ini dari mana slot akan diwariskan.	Objek Referensi: `"parent":{"ref":"myBaseObjectId"}`
pipelineLogUri	URI S3 (seperti 's3://BucketName/Key/ ') untuk mengunggah log untuk pipeline.	String
prasyarat	Mendefinisikan prasyarat secara opsional. Sebuah simpul data tidak ditandai "READY" sampai semua prasyarat telah terpenuhi.	Objek Referensi: `"precondition":{"ref":"myPreconditionId"}`
antrean	Sesuai dengan pengaturan `query_group` di Amazon Redshift, yang mengizinkan Anda untuk menetapkan dan memprioritaskan aktivitas bersamaan berdasarkan penempatan mereka dalam antrean. Amazon Redshift membatasi jumlah koneksi simultan hingga 15. Untuk informasi selengkapnya, lihat Menetapkan Kueri untuk Antrean di Amazon RDS Panduan Developer Basis Data.	String
reportProgressTimeout	Timeout untuk panggilan berurutan kerja jarak jauh ke `reportProgress`. Jika disetel, maka kegiatan jarak jauh yang tidak melaporkan kemajuan untuk jangka waktu tertentu dapat dianggap terhenti dan jadi dicoba lagi.	Periode
retryDelay	Durasi timeout antara dua upaya coba lagi.	Periode
scheduleType	Mengizinkan Anda untuk menentukan apakah jadwal untuk objek dalam alur Anda. Nilai adalah: `cron`, `ondemand`, dan `timeseries`. Penjadwalan `timeseries` berarti bahwa instans dijadwalkan pada akhir setiap interval. Penjadwalan `Cron` berarti bahwa instans dijadwalkan pada awal setiap interval. Jadwal `ondemand` mengizinkan Anda untuk menjalankan alur satu kali per aktivasi. Ini berarti Anda tidak perlu meng-klon atau membuat ulang alur untuk menjalankannya lagi. Untuk menggunakan alur `ondemand`, panggil operasi `ActivatePipeline` untuk setiap putaran berikutnya. Jika Anda menggunakan jadwal `ondemand`, Anda harus menentukan dalam objek default, dan itu harus menjadi satu-satunya `scheduleType` yang ditentukan untuk objek dalam alur.	Pencacahan
transformSql	Ekspresi `SQL SELECT` yang digunakan untuk mengubah input data. Jalankan ekspresi `transformSql` pada tabel bernama `staging`. Saat Anda menyalin data dari DynamoDB atau Amazon S3, AWS Data Pipeline membuat tabel yang disebut "staging" dan awalnya memuat data di sana. Data dari tabel ini digunakan untuk memperbarui tabel target. Output skema `transformSql` harus sesuai skema tabel target akhir ini. Jika Anda menentukan pilihan `transformSql`, tabel staging kedua dibuat dari pernyataan SQL tertentu. Data dari tabel staging kedua ini kemudian diperbarui dalam tabel target akhir.	String

Bidang Runtime	Deskripsi	Jenis Slot
@activeInstances	Daftar objek instans aktif terjadwal saat ini.	Objek Referensi: `"activeInstances":{"ref":"myRunnableObjectId"}`
@actualEndTime	Waktu ketika eksekusi objek ini selesai.	DateTime
@actualStartTime	Waktu ketika eksekusi objek ini dimulai.	DateTime
cancellationReason	cancellationReason jika objek ini dibatalkan.	String
@cascadeFailedOn	Deskripsi rantai dependensi tempat objek gagal.	Objek Referensi: `"cascadeFailedOn":{"ref":"myRunnableObjectId"}`
emrStepLog	Log langkah EMR hanya tersedia pada upaya aktivitas EMR	String
errorId	errorId jika objek ini gagal.	String
errorMessage	errorMessage jika objek ini gagal.	String
errorStackTrace	Jejak tumpukan kesalahan jika objek ini gagal.	String
@finishedTime	Waktu saat objek ini menyelesaikan eksekusinya.	DateTime
hadoopJobLog	log tugas Hadoop tersedia pada upaya untuk kegiatan berbasis EMR.	String
@healthStatus	Status kondisi objek yang mencerminkan keberhasilan atau kegagalan instans objek terakhir yang mencapai keadaan dihentikan.	String
@healthStatusFromInstanceId	Id dari objek instans terakhir yang mencapai keadaan dihentikan.	String
@ healthStatusUpdated Waktu	Waktu di mana status kondisi diperbarui terakhir kali.	DateTime
hostname	Nama host klien yang mengambil upaya tugas.	String
@lastDeactivatedTime	Waktu di mana objek ini terakhir dinonaktifkan.	DateTime
@ latestCompletedRun Waktu	Waktu proses terakhir yang eksekusinya selesai.	DateTime
@latestRunTime	Waktu proses terakhir untuk eksekusi yang dijadwalkan.	DateTime
@nextRunTime	Waktu run yang akan dijadwalkan berikutnya.	DateTime
reportProgressTime	Waktu terbaru bahwa aktivitas jarak jauh melaporkan kemajuan.	DateTime
@scheduledEndTime	Jadwalkan akhir waktu untuk objek.	DateTime
@scheduledStartTime	Jadwalkan waktu mulai untuk objek.	DateTime
@status	Status objek ini.	String
@version	Versi alur objek dibuat dengan.	String
@waitingOn	Deskripsi daftar dependensi objek ini sedang menunggu.	Objek Referensi: `"waitingOn":{"ref":"myRunnableObjectId"}`

Bidang Sistem	Deskripsi	Jenis Slot
@error	Galat menggambarkan objek yang tidak terbentuk.	String
@pipelineId	Id dari alur tempat objek ini berada.	String
@sphere	Lingkup sebuah objek. Menunjukkan tempatnya dalam siklus hidup. Misalnya, Component Objects memunculkan Instance Objects yang mengeksekusi Attempt Objects..	String

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

PigActivity

ShellCommandActivity