Mengonfigurasi sumber data Anda di Dasbor OpenSearch - OpenSearch Layanan Amazon

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengonfigurasi sumber data Anda di Dasbor OpenSearch

Ini adalah dokumentasi prarilis untuk kueri langsung OpenSearch Layanan Amazon dengan Amazon S3, yang dalam rilis pratinjau. Dokumentasi dan fitur dapat berubah. Sebaiknya gunakan fitur ini hanya dalam lingkungan pengujian, bukan dalam lingkungan produksi. Untuk syarat dan ketentuan pratinjau, lihat Beta dan Pratinjau di Persyaratan LayananAWS.

Setelah membuat sumber data, Anda dapat mengonfigurasi pengaturan keamanan, menentukan tabel Amazon S3, atau mengatur pengindeksan data yang dipercepat. Bagian ini memandu Anda melalui berbagai kasus penggunaan dengan sumber data Anda di OpenSearch Dasbor sebelum Anda menanyakan data Anda.

Untuk mengonfigurasi bagian berikut, Anda harus terlebih dahulu menavigasi ke sumber data Anda di OpenSearch Dasbor. Di navigasi sebelah kiri, di bawah Manajemen, pilih Sumber data. Di bawah Kelola sumber data, pilih nama sumber data yang Anda buat di konsol.

Mengatur kontrol akses

Pada halaman detail untuk sumber data Anda, temukan bagian Kontrol akses dan pilih Edit. Jika Anda telah menginstal plugin keamanan, pilih Dibatasi dan pilih grup berbasis peran mana yang ingin Anda berikan dengan akses ke sumber data baru. Anda juga dapat memilih Admin hanya jika Anda hanya ingin administrator memiliki akses ke sumber data.

penting

Perhatikan bahwa indeks digunakan untuk kueri apa pun terhadap sumber data, sehingga pengguna dengan akses baca ke indeks permintaan untuk sumber data tertentu dapat membaca semua kueri terhadap sumber data tersebut, dan pengguna dengan akses baca ke indeks hasil dapat membaca hasil untuk semua kueri terhadap sumber data tersebut.

Tentukan AWS Glue Data Catalog tabel

Kueri langsung dari OpenSearch Layanan ke Amazon S3 menggunakan tabel Spark di dalam file. AWS Glue Data CatalogAnda dapat menggunakan Perayap AWS Glue untuk merayapi data Anda, yang akan membuat tabel untuk Anda. Bergantian, Anda dapat secara manual membuat tabel dari dalam Query Workbench.

Untuk mengelola database dan tabel yang ada di sumber data Anda, atau untuk membuat tabel baru yang ingin Anda gunakan kueri langsung, pilih opsi Tentukan tabel pada halaman detail sumber data. Ini membawa Anda ke halaman plugin Query Workbench.

Untuk menyiapkan tabel dengan data sampel yang dapat Anda jelajahi dan gunakan untuk akselerasi di bagian berikut, jalankan kueri berikut:

CREATE EXTERNAL TABLE IF NOT EXISTS datasourcename.gluedatabasename.gluetablename ( `@timestamp` TIMESTAMP, clientip STRING, request STRING, status INT, size INT, year INT, month INT, day INT) USING json PARTITIONED BY(year, month, day) OPTIONS (path 's3://my-bucket/data/http_log', compression 'bzip2')

Setelah membuat tabel, jalankan kueri berikut untuk memastikan bahwa itu kompatibel dengan kueri langsung:

MSCK REPAIR TABLE datasourcename.databasename.tablename

Mempercepat kueri Anda

Pada halaman detail untuk sumber data Anda, pilih opsi Percepat Kinerja. Untuk memastikan pengalaman yang cepat dengan data Anda di Amazon S3, ada tiga jenis akselerasi berbeda yang dapat Anda atur untuk mengindeks data ke dalam OpenSearch Layanan—melewatkan indeks, tampilan terwujud, dan mencakup indeks.

Melewatkan indeks

Dengan indeks skipping, Anda hanya dapat mengindeks metadata data yang disimpan di Amazon S3. Saat Anda menanyakan tabel dengan indeks lompatan, perencana kueri mereferensikan indeks dan menulis ulang kueri untuk menemukan data secara efisien, alih-alih memindai semua partisi dan file. Hal ini memungkinkan indeks skipping untuk dengan cepat mempersempit lokasi spesifik dari data yang disimpan.

Saat Anda mengonfigurasi tabel Spark yang akan Anda gunakan dari AWS Glue Data Catalog, OpenSearch Dasbor menanyakan apakah Anda ingin membuat indeks lewati pada tabel Anda. Anda dapat membuat indeks skipping di sana, atau Anda dapat membuatnya dengan kasus penggunaan Accelerate Performance setelah Anda menyelesaikan konfigurasi tabel Anda.

CREATE SKIPPING INDEX ON datasourcename.gluedatabasename.gluetablename ( year PARTITION, month PARTITION, day PARTITION, hour PARTITION )

Tampilan terwujud

Dengan tampilan terwujud, Anda dapat menggunakan kueri kompleks, seperti agregasi, untuk mendukung visualisasi Dasbor. Tampilan terwujud menyerap sejumlah kecil data Anda ke dalam penyimpanan OpenSearch Layanan. OpenSearch Layanan kemudian membentuk indeks dari data yang dicerna yang dapat Anda gunakan untuk visualisasi. Anda dapat mengelola indeks tampilan terwujud denganManajemen Status Indeks di OpenSearch Layanan Amazon, seperti yang Anda bisa dengan OpenSearch indeks lainnya.

Gunakan kueri berikut untuk membuat tampilan terwujud baru untuk http_logs tabel yang Anda buat: Tentukan AWS Glue Data Catalog tabel

CREATE MATERIALIZED VIEW datasourcename.gluedatabasename.viewname_view AS SELECT window.start AS `start.time`, COUNT(*) AS count FROM datasourcename.gluedatabasename.gluetablename WHERE status != 200 GROUP BY TUMBLE(`@timestamp`, '1 Minutes') WITH ( auto_refresh = true, refresh_interval = '1 Minutes', checkpoint_location = 's3://my-bucket/data/http_log/checkpoint_http_count_view', watermark_delay = '10 Minutes' );

Meliputi indeks

Dengan indeks penutup, Anda dapat menelan data dari kolom tertentu dalam tabel. Ini adalah yang paling berkinerja dari tiga jenis pengindeksan. Karena OpenSearch Layanan menyerap semua data dari kolom yang Anda inginkan, Anda mendapatkan kinerja yang lebih baik dan dapat melakukan analisis lanjutan.

Sama seperti tampilan terwujud, OpenSearch Service membuat indeks baru dari data indeks penutup. Anda dapat menggunakan indeks baru ini untuk visualisasi Dasbor dan fungsionalitas OpenSearch Layanan lainnya, seperti deteksi anomali atau kemampuan geospasial. Anda dapat mengelola indeks tampilan penutup denganManajemen Status Indeks di OpenSearch Layanan Amazon, seperti yang Anda bisa dengan OpenSearch indeks lainnya.

Gunakan kueri berikut untuk membuat indeks penutup baru untuk http_logs tabel yang Anda buatTentukan AWS Glue Data Catalog tabel:

CREATE INDEX status_clientip_and_day ON datasourcename.gluedatabasename.gluetablename ( status, day, clientip ) WITH ( auto_refresh = true, refresh_interval = '5 minute', checkpoint_location = 's3://my-bucket/data/http_log/checkpoint_status_and_day' )