Amazon Elasticsearch Service 에서 인덱스 스냅샷 생성 - Amazon Elasticsearch Service

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon Elasticsearch Service 에서 인덱스 스냅샷 생성

Amazon Elasticsearch Service (Amazon ES) 의 스냅샷은 클러스터의 인덱스와 상태의 백업입니다. 상태에는 클러스터 설정, 노드 정보, 인덱스 설정 및 샤드 할당이 포함됩니다.

Amazon ES 스냅샷은 다음 형식으로 제공됩니다.

  • 자동 스냅샷은 클러스터 복구 전용입니다. 빨간색 클러스터 상태 또는 데이터 손실이 발생할 경우 이 옵션을 사용하여 도메인을 복원할 수 있습니다. 자세한 내용은 단원을 참조하십시오.스냅샷 복원아래의 를 참조하십시오. Amazon ES는 추가 요금 없이 미리 구성된 Amazon S3 버킷에 자동 스냅샷을 저장합니다.

  • 수동 스냅샷 수클러스터 복구용또는를 사용하여 한 클러스터에서 다른 클러스터로 데이터를 이동할 수 있습니다. 수동 스냅샷을 시작해야 합니다. 이러한 스냅샷은 자체 Amazon S3 버킷에 저장되며 표준 S3 요금이 적용됩니다. 자체 관리형 Elasticsearch 클러스터의 스냅샷이 있는 경우 해당 스냅샷을 사용하여 Amazon ES 도메인으로 마이그레이션할 수 있습니다. 자세한 내용은 단원을 참조하십시오.Amazon Elasticsearch Service 로 마이그레이션.

모든 Amazon ES 도메인은 자동 스냅샷을 생성하지만 빈도는 다음과 같은 면에서 다릅니다.

  • Elasticsearch 5.3 이상을 실행 중인 도메인의 경우 Amazon ES는 시간별 자동 스냅샷을 생성하고 최대 336개의 스냅샷을 14일 동안 보관합니다.

  • Elasticsearch 5.1 이하를 실행 중인 도메인의 경우 Amazon ES는 지정한 시간 동안 일별 자동 스냅샷을 생성하고, 최대 14개의 스냅샷을 보관하며, 30일 이상 스냅샷 데이터를 보관하지 않습니다.

클러스터가 빨간색 상태가 되면 클러스터 상태가 유지되는 동안 모든 자동 스냅샷이 실패합니다. 2주 내에 문제를 해결하지 않으면 클러스터의 데이터가 영구적으로 손실될 수 있습니다. 문제 해결 단계는 빨간색 클러스터 상태 단원을 참조하십시오.

Prerequisites

스냅샷을 수동으로 생성하려면 IAM 및 Amazon S3 으로 작업해야 합니다. 스냅샷을 생성하기 전에 다음 필수 조건을 충족하는지 확인하십시오.

사전 조건 설명
S3 버킷

Amazon ES 도메인의 수동 스냅샷을 저장할 S3 버킷을 생성합니다. 지침은 을 참조하십시오.버킷 만들기Amazon Simple Storage Service 시작 안내서.

사용할 버킷의 이름을 기억하십시오.

  • ResourceIAM 역할에 연결된 IAM 정책의 문

  • 스냅샷 리포지토리를 등록하는 데 사용되는 Python 클라이언트 (이 메서드를 사용하는 경우)

중요

S3 Glacier 수명 주기 규칙을 이 버킷에 적용하지 마십시오. 수동 스냅샷은 S3 Glacier 스토리지 클래스를 지원하지 않습니다.

IAM 역할

Amazon ES에 권한을 위임할 IAM 역할을 생성합니다. 지침은 을 참조하십시오.IAM 역할 만들기 (콘솔)IAM 사용 설명서. 이 장의 나머지 부분에서는 이 역할을 TheSnapshotRole이라고 부릅니다.

IAM 정책 연결

다음 정책을 에 연결합니다.TheSnapshotRole를 사용하여 S3 버킷에 대한 액세스를 허용할 수 있습니다.

{ "Version": "2012-10-17", "Statement": [{ "Action": [ "s3:ListBucket" ], "Effect": "Allow", "Resource": [ "arn:aws:s3:::s3-bucket-name" ] }, { "Action": [ "s3:GetObject", "s3:PutObject", "s3:DeleteObject" ], "Effect": "Allow", "Resource": [ "arn:aws:s3:::s3-bucket-name/*" ] } ] }

역할에 정책을 연결하는 방법은IAM 자격 증명 권한 추가IAM 사용 설명서.

신뢰 관계 편집

신뢰 관계 편집TheSnapshotRole에서 아마존 ES를 지정하려면Principal문을 다음 예와 같이 합니다.

{ "Version": "2012-10-17", "Statement": [{ "Sid": "", "Effect": "Allow", "Principal": { "Service": "es.amazonaws.com" }, "Action": "sts:AssumeRole" }] }

트러스트 관계를 편집하는 방법에 대한 자세한 내용은역할 신뢰 정책 수정IAM 사용 설명서.

권한

스냅샷 리포지토리를 등록하려면TheSnapshotRole를 Amazon ES로 보냅니다. es:ESHttpPut 작업에도 액세스해야 합니다. 이러한 두 권한을 모두 부여하려면 자격 증명이 요청에 서명하는 데 사용되는 IAM 사용자 또는 역할에 다음 정책을 연결합니다.

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "iam:PassRole", "Resource": "arn:aws:iam::123456789012:role/TheSnapshotRole" }, { "Effect": "Allow", "Action": "es:ESHttpPut", "Resource": "arn:aws:es:region:123456789012:domain/domain-name/*" } ] }

사용자 또는 역할에iam:PassRole전달할 권한TheSnapshotRole다음 단계에서 리포지토리를 등록하려고 할 때 다음과 같은 일반 오류가 발생할 수 있습니다.

$ python register-repo.py {"Message":"User: arn:aws:iam::123456789012:user/MyUserAccount is not authorized to perform: iam:PassRole on resource: arn:aws:iam::123456789012:role/TheSnapshotRole"}

수동 스냅샷 리포지토리의 등록

수동 인덱스 스냅샷을 생성하려면 Amazon ES에 스냅샷 리포지토리를 등록해야 합니다. 이 일회성 작업을 수행하려면AWS액세스가 허용되는 자격 증명으로 요청TheSnapshotRole의 설명에 따라Prerequisites.

1단계: Kibana에서 스냅샷 역할을 매핑합니다 (세분화된 액세스 제어를 사용하는 경우).

세분화된 액세스 제어를 사용하면 리포지토리를 등록할 때 추가 단계가 가중됩니다. 다른 모든 목적으로 HTTP 기본 인증을 사용하더라도manage_snapshots역할을 IAM 사용자 또는 역할로iam:PassRole전달할 권한TheSnapshotRole.

  1. Amazon ES 도메인의 Kibana 플러그인으로 이동합니다. Amazon ES 콘솔의 도메인 대시보드에서 Kibana 엔드포인트를 찾을 수 있습니다.

  2. 기본 메뉴에서 선택보안,Roles을 선택하고관리 스냅샷역할

  3. 선택매핑된 사용자,매핑 관리.

  4. 전달할 권한이 있는 사용자 또는 역할의 도메인 ARN 추가합니다.TheSnapshotRole. 사용자 ARN을사용자및 역할 ARN백엔드 역할.

    arn:aws:iam::123456789123:user/user-name
    arn:aws:iam::123456789123:role/role-name
  5. Select을 클릭하고 사용자 또는 역할이매핑된 사용자.

2단계: 리포지토리 등록

스냅샷 리포지토리를 등록하려면 Amazon ES 도메인 엔드포인트에 PUT 요청을 전송합니다. 를 사용할 수 없습니다.curl를 지원하지 않기 때문에 이 작업을 수행할 수 있습니다.AWS서명을 요청합니다. 대신 샘플 Python 클라이언트, Postman이나 다른 방법으로 서명 요청을 전송해 스냅샷 리포지토리를 등록하십시오.

요청은 다음 형식을 취합니다.

PUT elasticsearch-domain-endpoint/_snapshot/my-snapshot-repo-name { "type": "s3", "settings": { "bucket": "s3-bucket-name", "region": "region", "role_arn": "arn:aws:iam::123456789012:role/TheSnapshotRole" } }

도메인이 VPC (가상 프라이빗 클라우드) 내에 상주하는 경우 요청이 스냅샷 리포지토리를 등록하려면 컴퓨터가 VPC에 연결되어야 합니다. VPC 액세스는 네트워크 구성에 따라 다르지만, VPN 또는 회사 네트워크 연결이 필요할 수 있습니다. Amazon ES 도메인에 연결할 수 있는지 확인하려면https://your-vpc-domain.region.es.amazonaws.com를 실행하고 기본 JSON 응답을 받을 수 있는지 확인합니다.

스냅샷 저장소 암호화

현재 KMS (키 관리 서비스) 마스터 키를 사용하여 수동 스냅샷을 암호화할 수는 없지만 서버 측 암호화 (SSE) 를 사용하여 보호할 수 있습니다.

스냅샷 리포지토리로 사용하는 버킷에 S3 관리형 키로 SSE를 활성화하려면"server_side_encryption": true"settings"블록 PUT 요청. 자세한 내용은 단원을 참조하십시오.Amazon S3 관리형 암호화 키로 서버 측 암호화를 사용하여 데이터 보호Amazon Simple Storage Service 사용 설명서.

또는 스냅샷 리포지토리로 사용하는 S3 버킷의 서버 측 암호화로 CMK (고객 마스터 키) 를 사용할 수 있습니다.

다른 도메인으로 데이터 마이그레이션

스냅샷 리포지토리의 등록은 일회성 작업입니다. 그러나 한 도메인에서 다른 도메인으로 마이그레이션하려면 이전 도메인과 새 도메인에 동일한 스냅샷 리포지토리를 등록해야 합니다. 리포지토리 이름은 임의의 이름입니다.

다른 이유로 새 도메인으로 마이그레이션하거나 동일한 저장소를 여러 도메인으로 등록할 때는 다음 지침을 고려하십시오.

  • 새 도메인에 저장소를 등록할 때"readonly": true"settings"블록 PUT 요청. 이 설정은 실수로 이전 도메인의 데이터를 덮어쓰지 않도록 합니다.

  • 데이터를 다른 리전의 도메인으로 마이그레이션하는 경우 (예: us-east-2에 있는 이전 도메인 및 버킷에서 us-west-2의 새 도메인으로 마이그레이션하는 경우) PUT 요청을 보낼 때 다음과 같은 500 오류가 표시될 수 있습니다.

    The bucket is in this region: us-east-2. Please use this region to retry the request.

    이 오류가 발생하면"region": "us-east-2"다음으로 바꿉니다."endpoint": "s3.amazonaws.com"PUT 문에서 요청을 다시 시도하면 됩니다.

샘플 Python 클라이언트 사용하기

Python 클라이언트는 간단한 HTTP 요청보다 자동화가 쉽고 재사용 성이 뛰어납니다. 이 메서드를 사용하여 스냅샷 리포지토리를 등록하려면 다음 샘플 Python 코드를register-repo.py. 클라이언트는 AWS SDK for Python (Boto3), 요청requests-aws4auth 패키지가 필요합니다. 클라이언트는 다른 스냅샷 작업을 위한 주석 처리된 예제를 포함하고 있습니다.

작은 정보

Java 기반 코드 샘플은 HTTP 요청 서명에서 이용할 수 있습니다.

샘플 코드에서 다음 변수를 업데이트합니다.host,region,path, 및payload.

import boto3 import requests from requests_aws4auth import AWS4Auth host = '' # include https:// and trailing / region = '' # e.g. us-west-1 service = 'es' credentials = boto3.Session().get_credentials() awsauth = AWS4Auth(credentials.access_key, credentials.secret_key, region, service, session_token=credentials.token) # Register repository path = '_snapshot/my-snapshot-repo-name' # the Elasticsearch API endpoint url = host + path payload = { "type": "s3", "settings": { "bucket": "s3-bucket-name", "region": "us-west-1", "role_arn": "arn:aws:iam::123456789012:role/TheSnapshotRole" } } headers = {"Content-Type": "application/json"} r = requests.put(url, auth=awsauth, json=payload, headers=headers) print(r.status_code) print(r.text) # # Take snapshot # # path = '_snapshot/my-snapshot-repo/my-snapshot' # url = host + path # # r = requests.put(url, auth=awsauth) # # print(r.text) # # # Delete index # # path = 'my-index' # url = host + path # # r = requests.delete(url, auth=awsauth) # # print(r.text) # # # Restore snapshot (all indices except Kibana and fine-grained access control) # # path = '_snapshot/my-snapshot-repo/my-snapshot/_restore' # url = host + path # # payload = { # "indices": "-.kibana*,-.opendistro_security", # "include_global_state": False # } # # headers = {"Content-Type": "application/json"} # # r = requests.post(url, auth=awsauth, json=payload, headers=headers) # # print(r.text) # # # Restore snapshot (one index) # # path = '_snapshot/my-snapshot-repo/my-snapshot/_restore' # url = host + path # # payload = {"indices": "my-index"} # # headers = {"Content-Type": "application/json"} # # r = requests.post(url, auth=awsauth, json=payload, headers=headers) # # print(r.text)

수동 스냅샷 생성

스냅샷은 즉각적이지 않습니다. 완료하는 데 시간이 걸리며 클러스터의 완벽한 특정 시점 보기를 나타내지 않습니다. 스냅샷이 진행 중인 동안에도 문서를 인덱스 처리하고 클러스터에 다른 요청을 할 수 있지만 일반적으로 새로운 문서와 기존 문서의 업데이트는 해당 스냅샷에 포함되지 않습니다. 스냅샷에는 Elasticsearch가 스냅샷을 시작할 때 존재한 기본 샤드가 포함됩니다. 스냅샷 스레드 풀의 크기에 따라 서로 다른 시간에 스냅샷에 다른 샤드가 포함될 수 있습니다.

스냅샷 스토리지 및 성능

Elasticsearch 스냅샷은 증분식이며, 마지막으로 성공한 스냅샷 이후로 변경된 데이터만 저장합니다. 이러한 증분적 특성은 자주 사용되는 스냅샷과 그 반대의 스냅샷 간의 디스크 사용량 차이가 거의 없는 경우가 많다는 의미죠. 즉, 일주일에 한 번 시간별로 스냅샷을 가져올 경우(총 168개의 스냅샷) 주말에 단일 스냅샷을 가져오는 것보다 훨씬 많은 디스크 공간을 사용할 수는 없습니다. 또한 스냅샷을 자주 가져올수록 완료하는 데 걸리는 시간이 줄어듭니다. 일부 Elasticsearch 사용자는 매 30분마다 스냅샷을 가져옵니다.

스냅샷 생성

스냅샷을 생성할 때 다음 정보를 지정합니다.

  • 스냅샷 리포지토리의 이름

  • 스냅샷의 이름

이 장의 예제에서는 편의상 그리고 간단하게 하기 위해 일반적인 HTTP 클라이언트인 curl을 사용합니다. 하지만 액세스 정책이 IAM 사용자 또는 역할을 지정하는 경우에는 스냅샷 요청에 서명해야 합니다. 샘플 Python 클라이언트의 주석 처리된 예제를 사용하여 curl 명령이 사용하는 동일한 엔드포인트에 서명된 HTTP 요청을 할 수 있습니다.

수동 스냅샷을 생성하려면 다음 단계를 수행합니다.

  1. 현재 스냅샷 생성이 진행 중인 경우 스냅샷을 생성할 수 없습니다. 확인하려면 다음 명령을 실행합니다.

    curl -XGET 'elasticsearch-domain-endpoint/_snapshot/_status'
  2. 수동 Sh샷을 만들려면 다음 명령을 실행합니다.

    curl -XPUT 'elasticsearch-domain-endpoint/_snapshot/repository-name/snapshot-name'
참고

Amazon ES 도메인의 크기에 따라 스냅샷을 생성하는 데 필요한 시간이 늘어납니다. 장기 실행 스냅샷 작업에서 경우에 따라 같은 오류가 발생합니다. 504 GATEWAY_TIMEOUT. 일반적으로 이러한 오류를 무시하고 작업이 성공적으로 완료될 때까지 기다릴 수 있습니다. 다음 명령을 실행하여 도메인의 모든 스냅샷 상태를 확인합니다.

curl -XGET 'elasticsearch-domain-endpoint/_snapshot/repository-name/_all?pretty'

스냅샷 복원

주의

인덱스 별칭을 사용하는 경우, 인덱스를 삭제하기 전에 별칭에 요청 쓰기를 중단하거나 그 별칭을 다른 인덱스로 전환하십시오. 쓰기 중단 요청은 다음과 같은 상황을 피하도록 해 줍니다.

  1. 인덱스를 삭제하면 별칭도 삭제됩니다.

  2. 현재 지워진 별칭에 잘못된 쓰기 요청 때문에 그 별칭과 동일한 이름을 가진 새 인덱스가 생성됩니다.

  3. 새 인덱스에 지정하는 이름과 충돌하기 때문에 그 별칭을 더 이상 사용할 수 없습니다.

별칭을 다른 인덱스로 전환하는 경우 스냅샷에서 복원할 때 "include_aliases": false를 지정하십시오.

스냅샷을 복원하려면 다음 단계를 수행합니다.

  1. 복원할 스냅샷을 식별합니다. 모든 스냅샷 리포지토리를 보려면 다음 명령을 실행합니다.

    curl -XGET 'elasticsearch-domain-endpoint/_snapshot?pretty'

    리포지토리를 식별한 후, 다음 명령을 실행하여 모든 스냅샷을 봅니다.

    curl -XGET 'elasticsearch-domain-endpoint/_snapshot/repository-name/_all?pretty'
    참고

    대부분의 자동 스냅샷은 cs-automated 리포지토리에 저장됩니다. 도메인이 유휴 시 데이터를 암호화하는 경우cs-automated-enc리포지토리의. 찾고 있는 수동 스냅샷 리포지토리가 보이지 않으면를 등록했습니다.를 도메인에 추가합니다.

  2. (선택 사항) 클러스터의 인덱스와 스냅샷의 인덱스 간에 이름이 충돌하는 경우 Amazon ES 도메인에서 하나 이상의 인덱스를 삭제하거나 이름을 바꿉니다. 이미 같은 이름의 인덱스가 있는 Elasticsearch 클러스터에 인덱스 스냅샷을 복원할 수는 없습니다.

    인덱스 이름 충돌이 있는 경우 다음 옵션이 있습니다.

    • 기존 Amazon ES 도메인의 인덱스를 삭제한 후 스냅샷을 복원합니다.

    • 스냅샷에서 인덱스를 복원할 때 인덱스 이름를 만들고 나중에 다시 인덱스를 만듭니다.

    • 스냅샷을 다른 Amazon ES 도메인으로 복원합니다 (수동 스냅샷만 가능).

    다음 명령은 도메인의 모든 기존 인덱스를 삭제합니다.

    curl -XDELETE 'elasticsearch-domain-endpoint/_all'

    그러나 모든 인덱스를 복원할 계획이 아니라면 한 인덱스만 삭제하면 됩니다.

    curl -XDELETE 'elasticsearch-domain-endpoint/index-name'
  3. 스냅샷을 복원하려면 다음 명령을 실행합니다.

    curl -XPOST 'elasticsearch-domain-endpoint/_snapshot/repository-name/snapshot-name/_restore'

    Kibana 및 세분화된 액세스 제어 인덱스에 대한 특별한 권한 때문에 모든 인덱스를 복원하려는 시도가 실패할 수 있으며, 자동화된 스냅샷에서 복원을 시도할 경우 특히 그렇습니다. 다음 예제에서는 my-index 스냅샷 리포지토리에 있는 2020-snapshot에서 인덱스 cs-automated만 복원합니다.

    curl -XPOST 'elasticsearch-domain-endpoint/_snapshot/cs-automated/2020-snapshot/_restore' -d '{"indices": "my-index"}' -H 'Content-Type: application/json'

    또는 모든 인덱스를 복원하고자 할 수 있습니다.를 제외하고Kibana 및 세분화된 액세스 제어 인덱스

    curl -XPOST 'elasticsearch-domain-endpoint/_snapshot/cs-automated/2020-snapshot/_restore' -d '{"indices": "-.kibana*,-.opendistro_security"}' -H 'Content-Type: application/json'
참고

기본 샤드 중 일부만 관련 인덱스에 사용할 수 있는 경우, 스냅샷의 statePARTIAL이 될 수 있습니다. 이 값은 적어도 샤드 하나의 데이터가 제대로 저장되지 않았음을 의미합니다. 부분 스냅샷에서도 복원할 수는 있지만, 그보다 오래된 스냅샷을 사용하여 누락된 인덱스를 복원해야 합니다.

수동 스냅샷 삭제

수동 스냅샷을 삭제하려면 다음 명령을 실행합니다.

DELETE _snapshot/repository-name/snapshot-name

인덱스 상태 관리를 통한 스냅샷 자동화

ISM (인덱스 상태 관리) 을 사용할 수 있습니다.snapshot작업을 사용하여 해당 기간, 크기 또는 문서 수의 변화에 따라 인덱스의 스냅샷을 자동으로 트리거할 수 있습니다. 예를 들어 ISM 정책의snapshot작업에 대한 자세한 내용은샘플 정책.

스냅샷에 Curator 사용

사용자에 따라서는 인덱스 및 스냅샷 관리에 Curator를 사용하는 것이 편리합니다. pip를 사용하여 Curator를 설치합니다.

pip install elasticsearch-curator

Curator에는 고급 필터링 기능이 있어 복잡한 클러스터에 대한 관리 작업을 간소하게 처리할 수 있습니다. Amazon ES는 Elasticsearch 버전 5.1 이상을 실행 중인 도메인의 큐레이터를 지원합니다. 명령줄 인터페이스(CLI) 또는 Python API로서 Curator를 사용할 수 있습니다. CLI를 사용하는 경우 명령줄에서 자격 증명을 내보내고 다음과 같이 curator.yml을 구성합니다.

client: hosts: search-my-domain.us-west-1.es.amazonaws.com port: 443 use_ssl: True aws_region: us-west-1 aws_sign_request: True ssl_no_validate: False timeout: 60 logging: loglevel: INFO

Python API를 사용하는 Lambda 함수 샘플은 Curator를 사용하여 Amazon Elasticsearch Service 의 데이터 회전을 보십시오.