Escala de petabytes no Amazon Service OpenSearch - OpenSearch Serviço Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Escala de petabytes no Amazon Service OpenSearch

Os domínios do Amazon OpenSearch Service oferecem armazenamento anexado de até 3 PB. Você pode configurar um domínio com 200 tipos de instância i3.16xlarge.search, cada um com 15 TB de armazenamento. Devido à grande diferença em escala, as recomendações para domínios desse tamanho diferem de nossas recomendações gerais. Esta seção descreve as considerações para a criação de domínios, custos, armazenamento e tamanho de fragmento.

Embora esta seção frequentemente faça referência a tipos de instância i3.16xlarge.search, você pode usar vários outros tipos de instância para alcançar 1 PB do total de armazenamento de domínio.

Criar domínios

Domínios desse tamanho excedem o limite padrão de 80 instâncias por domínio. Para solicitar um aumento do limite de serviço de até 200 instâncias por domínio, abra um caso no AWS Support Center.

Definição de preço

Antes de criar um domínio desse tamanho, verifique a página de preços do Amazon OpenSearch Service para garantir que os custos associados correspondam às suas expectativas. Examine UltraWarm armazenamento para Amazon OpenSearch Service para ver se uma arquitetura de atividade muito alta é adequada ao seu caso de uso.

Armazenamento

Os tipos de instância i3 são projetados para fornecer armazenamento local e rápido de memória expressa não volátil (NVMe). Como esse armazenamento local tende a oferecer benefícios de desempenho quando comparado ao Amazon Elastic Block Store, os volumes do EBS não são uma opção quando você seleciona esses tipos de instância no OpenSearch Service. Se você preferir o armazenamento do EBS, use outro tipo de instância, como r6.12xlarge.search.

Tamanho e contagem de fragmentos

Uma OpenSearch diretriz comum é não exceder 50 GB por fragmento. Considerando o número de fragmentos necessários para acomodar grandes domínios e os recursos disponíveis para instâncias i3.16xlarge.search, recomendamos um tamanho de fragmento de 100 GB.

Por exemplo, se você tiver 450 TB de dados de origem e quiser uma réplica, seu requisito de armazenamento mínimo será mais próximo de 450 TB * 2 * 1,1/0.95 = 1.04 PB. Para obter uma explicação sobre esse cálculo, consulte Cálculo de requisitos de armazenamento. Embora 1,04 PB / 15 TB = 70 instâncias, você pode selecionar 90 ou mais instâncias i3.16xlarge.search para obter uma rede de segurança de armazenamento, lidar com falhas de nós e lidar com alguma variação na quantidade de dados ao longo do tempo. Cada instância adiciona outros 20 GiB ao seu requisito de armazenamento mínimo, ainda que para discos deste tamanho, esses 20 GiB sejam quase insignificantes.

Controlar o número de fragmentos é complicado. OpenSearch os usuários geralmente alternam os índices diariamente e retêm os dados por uma ou duas semanas. Nesta situação, pode ser útil distinguir entre fragmentos "ativos" e "inativos". fragmentos ativos estão sendo gravados ou lidos ativamente. Fragmentos inativos podem servir para uma solicitação de leitura ocasional, mas são essencialmente ociosos. Em geral, você deve manter o número de fragmentos ativos abaixo de alguns milhares. À medida que o número de fragmentos ativos se aproxima de 10.000, riscos de performance e de estabilidade consideráveis podem surgir.

Para calcular o número de fragmentos principais, use esta fórmula: 450.000 GB * 1,1/100 GB por fragmento = 4,950 fragmentos. Ao dobrar esse número para contabilizar réplicas, temos 9.900 fragmentos, o que representa uma grande preocupação se todos os fragmentos estão ativos. No entanto, se você alternar índices e apenas 1/7 ou 1/14 dos fragmentos estiver ativo em um determinado dia (1.414 ou 707 fragmentos, respectivamente), o cluster poderá funcionar normalmente. Como sempre, a etapa mais importante do dimensionamento e da configuração do domínio é executar testes de cliente representativos usando um conjunto de dados realista.