As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Escolhendo o armazenamento certo
Configure os tipos de instância e a capacidade do seu cluster. Os nós principais e de tarefas precisam de processamento e poder computacional, mas somente os nós principais armazenam dados. Selecione o tipo de armazenamento mais econômico para seus nós principais.
Ao usar o Amazon EMR para processar grandes quantidades de dados, você tem várias opções para mover dados do Amazon S3. A melhor opção depende da sua carga de trabalho. As seções a seguir fornecem alguns pontos importantes a serem considerados ao decidir qual tipo de armazenamento é a escolha certa para você.
Sistema de arquivos distribuídos Hadoop
O Hadoop Distributed File System (HDFS) é um sistema de arquivos distribuído, escalável e portátil para o Hadoop. Uma vantagem do HDFS é o reconhecimento de dados entre os nós de clusters do Hadoop que gerenciam os clusters e os nós de cluster do Hadoop que gerenciam as etapas individuais.
Quando usar o HDFS no Amazon EMR
Quando você tem leituras iterativas no mesmo conjunto de dados ou cargas de trabalho intensivas de E/S de disco, você pode usar o HDFS para armazenar em cache resultados intermediários e como armazenamento dinâmico para processar dados. O HDFS é efêmero, o que significa que ele é recuperado quando as instâncias são encerradas.
Sistema de arquivos EMR
O EMR File System (EMRFS) é uma implementação do HDFS que os clusters do Amazon EMR normalmente usam para ler e gravar arquivos regulares do Amazon EMR diretamente no Amazon S3.
Você pode usar o EMRFS ao ler o conjunto de dados uma vez em cada execução. O EMRFS separa o armazenamento da computação, para que você não precise provisionar nós principais especificamente para armazenar dados e não precise pagar pela replicação de dados no HDFS. Isso resulta em custos mais baixos e fornece disponibilidade dos dados para vários clusters. Você também tem a vantagem de reter dados depois de desligar o cluster.