Escolhendo o armazenamento certo - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Escolhendo o armazenamento certo

Configure os tipos de instância e a capacidade do seu cluster. Os nós principais e de tarefas precisam de processamento e poder computacional, mas somente os nós principais armazenam dados. Selecione o tipo de armazenamento mais econômico para seus nós principais.

Ao usar o Amazon EMR para processar grandes quantidades de dados, você tem várias opções para mover dados do Amazon S3. A melhor opção depende da sua carga de trabalho. As seções a seguir fornecem alguns pontos importantes a serem considerados ao decidir qual tipo de armazenamento é a escolha certa para você.

Sistema de arquivos distribuídos Hadoop

O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído, escalável e portátil para o Hadoop. Uma vantagem do HDFS é o reconhecimento de dados entre os nós de clusters do Hadoop que gerenciam os clusters e os nós de cluster do Hadoop que gerenciam as etapas individuais.

Quando usar o HDFS no Amazon EMR

Quando você tem leituras iterativas no mesmo conjunto de dados ou cargas de trabalho intensivas de E/S de disco, você pode usar o HDFS para armazenar em cache resultados intermediários e como armazenamento dinâmico para processar dados. O HDFS é efêmero, o que significa que ele é recuperado quando as instâncias são encerradas.

Sistema de arquivos EMR

O EMR File System (EMRFS) é uma implementação do HDFS que os clusters do Amazon EMR normalmente usam para ler e gravar arquivos regulares do Amazon EMR diretamente no Amazon S3.

Você pode usar o EMRFS ao ler o conjunto de dados uma vez em cada execução. O EMRFS separa o armazenamento da computação, para que você não precise provisionar nós principais especificamente para armazenar dados e não precise pagar pela replicação de dados no HDFS. Isso resulta em custos mais baixos e fornece disponibilidade dos dados para vários clusters. Você também tem a vantagem de reter dados depois de desligar o cluster.