Escala de petabytes en Amazon Service OpenSearch - OpenSearch Servicio Amazon

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Escala de petabytes en Amazon Service OpenSearch

Los dominios OpenSearch de Amazon Service ofrecen almacenamiento adjunto de hasta 3 PB. Puede configurar un dominio con 200 tipos de instancias i3.16xlarge.search, cada una con 15 TB de almacenamiento. Debido a la gran diferencia de escala, las recomendaciones para los dominios de este tamaño difieren de nuestras recomendaciones generales. En esta sección, se explican consideraciones sobre la creación de dominios, los costos, el almacenamiento y el tamaño de las particiones.

Aunque esta sección hace referencia con frecuencia a los tipos de instancias i3.16xlarge.search, puede usar otros tipos de instancias para llegar a 1 PB de almacenamiento total del dominio.

Creación de dominios

Los dominios de este tamaño superan el límite predeterminado de 80 instancias por dominio. Para solicitar un aumento del límite del servicio de hasta 200 instancias por dominio, abra un caso en el Centro de asistencia deAWS.

Precios

Antes de crear un dominio de este tamaño, consulta la página de precios de Amazon OpenSearch Service para asegurarte de que los costes asociados se ajustan a tus expectativas. Examine UltraWarm almacenamiento para Amazon OpenSearch Service para ver si una arquitectura caliente/templada se ajusta a su caso de uso.

Almacenamiento

Los tipos de instancias i3 se han diseñado para proporcionar almacenamiento rápido, local y de memoria no volátil (NVMe). Dado que este almacenamiento local suele ofrecer ventajas de rendimiento en comparación con Amazon Elastic Block Store, los volúmenes de EBS no son una opción cuando se seleccionan estos tipos de instancias en OpenSearch Service. Si prefiere el almacenamiento de EBS, utilice otro tipo de instancia, como r6.12xlarge.search.

Tamaño y número de fragmentos

Una OpenSearch pauta habitual es no superar los 50 GB por partición. Habida cuenta del número de fragmentos necesarios para acomodar dominios grandes y los recursos disponibles para instancias i3.16xlarge.search, le recomendamos un tamaño de fragmento de 100 GB.

Por ejemplo, si tiene 450 TB de datos de origen y solo quiere una réplica, su requisito de almacenamiento mínimo será aproximadamente 450 TB * 2 * 1,1/0.95 = 1.04 PB. Para obtener una explicación de este cálculo, consulte Cálculo de requisitos de almacenamiento. Aunque 1,04 PB / 15 TB = 70 instancias, podría seleccionar 90 o más instancias i3.16xlarge.search para disponer de una red de seguridad de almacenamiento, hacer frente a los errores de los nodos y tener en cuenta cierta variación en la cantidad de datos a lo largo del tiempo. Cada instancia añade otros 20 GiB a su requisito de almacenamiento mínimo, pero para discos de este tamaño, esos 20 GiB son casi insignificantes.

Controlar el número de fragmentos es complicado. OpenSearch los usuarios suelen rotar los índices a diario y conservar los datos durante una o dos semanas. En esta situación, puede que le resulte útil distinguir entre fragmentos "activos" e "inactivos". Los fragmentos activos son fragmentos que se están escribiendo o leyendo activamente. Las particiones inactivas pueden dar servicio a algunas solicitudes de lectura, pero están en gran medida inactivos. En general, debe mantener el número de fragmentos activos por debajo de varios miles. Cuando el número de fragmentos activos se acerca a los 10 000, surgen riesgos importantes de desempeño y estabilidad.

Para calcular el número de fragmentos principales, utilice esta fórmula: 450 000 GB * 1,1 / 100 GB por fragmento = 4 950 fragmentos. Si se duplica ese número para dar cuenta de las réplicas se obtienen 9 900 particiones, lo que supone un grave problema si todas las particiones están activas. Pero si rota los índices y solo una séptima parte o una catorceava parte de las particiones están activas en un día determinado (1,414 o 707 particiones, respectivamente), el clúster puede funcionar correctamente. Como siempre, el paso más importante para determinar el tamaño y la configuración del dominio es realizar pruebas representativas en el cliente utilizando un conjunto de datos realista.