Recursos - AWS Data Pipeline

Recursos

No AWS Data Pipeline, um recurso é o recurso computacional que executa o trabalho que uma atividade de pipeline especifica. O AWS Data Pipeline oferece suporte aos seguintes tipos de recursos:

Ec2Resource

Uma instância do EC2 que executa o trabalho definido por uma atividade de pipeline.

EmrCluster

Um cluster do Amazon EMR que executa o trabalho definido por uma atividade de pipeline, como EmrActivity.

Os recursos podem ser executados na mesma região do seu conjunto de dados de trabalho, mesmo que ela seja diferente da região do AWS Data Pipeline. Para obter mais informações, consulte Usar um pipeline com recursos em várias regiões.

Limites de recurso

O AWS Data Pipeline pode ser dimensionado para acomodar uma grande quantidade de tarefas simultâneas, e você pode configurá-lo para criar automaticamente os recursos necessários para lidar com grandes cargas de trabalho. Esses recursos criados automaticamente são controlados por você e contam para os limites de recursos da sua conta da AWS. Por exemplo, se você configurar o AWS Data Pipeline para criar automaticamente um cluster do Amazon EMR de 20 nós para processar dados, e sua conta da AWS tiver um limite de 20 instâncias do EC2, você poderá esgotar de maneira não intencional os seus recursos de alocação disponíveis. Por isso, considere essas restrições de recursos no seu projeto ou aumente os limites da sua conta. Para obter mais informações sobre limites de serviço, consulte Limites de serviço da AWS na Referência geral da AWS.

nota

O limite é de uma instância por objeto de componente Ec2Resource.

Plataformas com suporte

Os pipelines podem iniciar seus recursos nas seguintes plataformas:

EC2-Classic

Seus recursos são executados em uma única rede simples que você compartilha com outros clientes.

EC2-VPC

Seus recursos são executados em uma nuvem privada virtual (VPC) que é isolada logicamente para sua conta da AWS.

Sua conta da AWS pode iniciar recursos em ambas as plataformas ou somente na plataforma EC2-VPC, dependendo da região. Para obter mais informações, consulte Plataformas compatíveis no Guia do usuário do Amazon EC2 para instâncias do Linux.

Se a sua conta da AWS oferecer suporte somente à EC2-VPC, criaremos uma VPC padrão para você em cada região da AWS. Por padrão, iniciamos seus recursos em uma sub-rede padrão da sua VPC padrão. Se preferir, você pode criar uma VPC não padrão e especificar uma das suas sub-redes ao configurar seus recursos. Assim, iniciaremos seus recursos na sub-rede especificada da VPC não padrão.

Ao iniciar uma instância em uma VPC, você precisa especificar um security group criado especificamente para essa VPC. Não é possível especificar um security group criado para o EC2-Classic ao executar uma instância em uma VPC. Além disso, é necessário usar o ID do security group (e não o nome dele) para identificá-lo em uma VPC.

Instâncias spot do Amazon EC2 com clusters do Amazon EMR e o AWS Data Pipeline

Os pipelines podem usar as instâncias spot do Amazon EC2 para os nós de tarefa nos seus recursos de cluster do Amazon EMR. Por padrão, os pipelines usam instâncias sob demanda. As instâncias spot permitem que você use instâncias excedentes do EC2 e execute-as. O modelo de definição de preço da instância spot complementa os modelos de instâncias reservadas e sob demanda fornecendo potencialmente a opção mais econômica para obter capacidade computacional, dependendo do seu aplicativo. Para obter mais informações, consulte a página do produto Instâncias spot do Amazon EC2.

Quando você usa instâncias spot, o AWS Data Pipeline envia seu preço máximo de instâncias spot ao Amazon EMR quando seu cluster é iniciado. Ele alocará automaticamente o trabalho do cluster para o número de nós de tarefa da instância spot que você definiu usando o campo taskInstanceCount. O AWS Data Pipeline limita instâncias spot para nós de tarefas a fim de garantir que os nós core sob demanda estejam disponíveis para executar seu pipeline.

Você pode editar uma instância de recurso de pipeline com falha ou concluída para adicionar instâncias spot. Quando o pipeline reiniciar o cluster, ele usará instâncias spot para os nós de tarefa.

Considerações sobre as instâncias spot

Quando você usa as instâncias spot com o AWS Data Pipeline, as seguintes considerações se aplicam:

  • Suas instâncias spot poderão ser encerradas quando o preço de instância spot for maior do que o preço máximo da instância, ou por motivos de capacidade do Amazon EC2. No entanto, você não perderá seus dados, pois o AWS Data Pipeline emprega clusters com nós core que são sempre instâncias sob demanda e não estão sujeitos a encerramento.

  • As instâncias spot podem levar mais tempo para ser iniciadas, pois elas atendem à capacidade de forma assíncrona. Portanto, um pipeline de instância spot pode ser executado mais lentamente do que um pipeline de Instância sob demanda equivalente.

  • Seu cluster poderá não ser executado se você não receber suas instâncias spot, por exemplo, quando o preço máximo é muito baixo.