Amazon OpenSearch Service でのデータのインデックス作成

Amazon OpenSearch Service では REST API を使用するため、ドキュメントのインデックス作成にはさまざまな方法があります。curl などの標準クライアントを使用することも、HTTP リクエストの送信が可能な任意のプログラミング言語を使用することもできます。やり取りのプロセスをさらに単純化するため、OpenSearch Service には多くのプログラミング言語に対応するクライアントが用意されています。上級ユーザーは、直接「Amazon OpenSearch Service へのストリーミングデータをロードする」に進むことができます。

Amazon OpenSearch Ingestion を使用してデータを取り込むことを強くお勧めします。これは OpenSearch Service 内に構築されたフルマネージド型のデータコレクターです。詳細については、「Amazon OpenSearch Ingestion」を参照してください。

インデックス作成の概要については、OpenSearch のドキュメントを参照してください。

インデックスの命名制限

OpenSearch Service インデックスには、以下の命名制限があります。

すべての文字を小文字にする必要があります。
インデックスの名前を _ または - から始めることはできません。
インデックス名にスペース、カンマ、:、"、*、+、/、\、|、?、#、>、< を含めることはできません。

インデックス、タイプ、またはドキュメント ID 名に機密情報を含めないでください。OpenSearch Service は、これらの名前をその Uniform Resource Identifier (URI) で使用します。サーバーおよびアプリケーションは、HTTP リクエストを頻繁に記録します。このため、URI に機密情報が含まれている場合、不要なデータ漏えいにつながる可能性があります。


2018-10-03T23:39:43 198.51.100.14 200 "GET https://opensearch-domain/dr-jane-doe/flu-patients-2018/202-555-0100/ HTTP/1.1"

関連する JSON ドキュメントを表示する許可がない場合でも、Dr. Doe の患者 (電話番号は 202-555-0100) が 2018 年にインフルエンザにかかったことを、この架空のログ行から推測することが可能です。

OpenSearch Service が、インデックス名に実際の IP アドレスまたは認識した IP アドレスを検出した場合 (my-index-12.34.56.78.91 など) では、IP アドレスをマスクします。_cat/indices を呼び出すと、以下のレスポンスが生成されます。


green open my-index-x.x.x.x.91    soY19tBERoKo71WcEScidw 5 1 0 0   2kb  1kb

不必要な混乱を避けるため、インデックス名には IP アドレスを含めないでください。

レスポンスサイズの削減

_index および _bulk API のレスポンスには、多くの情報が含まれています。この情報は、リクエストのトラブルシューティングや、再試行ロジックの実装には役立ちますが、帯域幅を広く使用する場合があります。この例では、32 バイトのドキュメントのインデックスを作成すると、レスポンスは 339 バイト (ヘッダーを含む) になります。


PUT opensearch-domain/more-movies/_doc/1
{"title": "Back to the Future"}

レスポンス


{
  "_index": "more-movies",
  "_type": "_doc",
  "_id": "1",
  "_version": 4,
  "result": "updated",
  "_shards": {
    "total": 2,
    "successful": 2,
    "failed": 0
  },
  "_seq_no": 3,
  "_primary_term": 1
}

このレスポンスサイズは一見小さく見えますが、1 日あたり 1,000,000 ドキュメント (1 秒あたり約 11.5 ドキュメントのインデックス) を作成した場合、339 バイト/1 レスポンスは、1 か月あたり 10.17 GB のダウンロードトラフィックになります。

データ転送コストが懸念される場合は、filter_path パラメータを使用して OpenSearch Service レスポンスのサイズを削減できますが、失敗したリクエストの識別や再試行のために必要なフィールドを除外しないように注意してください。このフィールドはクライアントによって異なります。filter_path パラメータは、すべての OpenSearch Service REST API で動作しますが、頻繁に呼び出す API (例: _index、_bulk API) を使用する場合に特に便利です。


PUT opensearch-domain/more-movies/_doc/1?filter_path=result,_shards.total
{"title": "Back to the Future"}

レスポンス


{
  "result": "updated",
  "_shards": {
    "total": 2
  }
}

フィールドを含める代わりに、- プリフィックスを使用してフィールドを除外することができます。filter_path は、ワイルドカードもサポートしています。


POST opensearch-domain/_bulk?filter_path=-took,-items.index._*
{ "index": { "_index": "more-movies", "_id": "1" } }
{"title": "Back to the Future"}
{ "index": { "_index": "more-movies", "_id": "2" } }
{"title": "Spirited Away"}

レスポンス


{
  "errors": false,
  "items": [
    {
      "index": {
        "result": "updated",
        "status": 200
      }
    },
    {
      "index": {
        "result": "updated",
        "status": 200
      }
    }
  ]
}

インデックスコーデック

インデックスコーデックは、インデックスに格納されているフィールドを圧縮してディスクに保存する方法を決定します。インデックスコーデックは、圧縮アルゴリズムを指定する静的 index.codec 設定によって制御されます。この設定は、インデックスのシャードサイズと操作のパフォーマンスに影響します。

サポートされているコーデックのリストとパフォーマンス特性については、OpenSearch ドキュメントの「サポートされているコーデック」を参照してください。

インデックスコーデックを選択するときは、次の点を考慮してください。

既存のインデックスのコーデック設定を変更する手間を省くために、新しいコーデック設定を使用する前に、本番環境以外の環境で代表的なワークロードをテストしてください。詳細については、「インデックスコーデックを変更する」を参照してください。
Zstandard 圧縮コーデック ("index.codec": "zstd" または "index.codec": "zstd_no_dict") を k-NN とセキュリティ分析インデックスに使用することはできません。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

AWS SDKsの使用

OpenSearch Service へのストリーミングデータをロードする