Práticas recomendadas de importação do Amazon S3 para o DynamoDB
Veja a seguir as práticas recomendadas para importar dados do Amazon S3 para o DynamoDB.
Observar o limite de 50 mil objetos do S3
Cada trabalho de importação comporta no máximo 50 mil objetos do S3. Se o conjunto de dados tiver mais de 50 mil objetos, consolide-os em objetos maiores.
Evite objetos do S3 excessivamente grandes
Os objetos do S3 são importados em paralelo. Ter vários objetos do S3 de tamanho médio permite a execução em paralelo sem sobrecarga excessiva. Para itens com menos de 1 KB, coloque 4 milhões de itens em cada objeto do S3. Se você tiver um tamanho médio de item maior, coloque proporcionalmente menos itens em cada objeto do S3.
Randomize dados classificados
Se um objeto do S3 mantiver os dados em ordem de classificação, ele poderá criar uma partição em funcionamento contínuo. Essa é uma situação em que uma partição recebe toda a atividade, depois a próxima partição e assim por diante. Os dados em ordem de classificação são definidos como itens em sequência no objeto do S3 que serão gravados na mesma partição de destino durante a importação. Uma situação comum em que os dados estão em ordem de classificação é um arquivo CSV em que os itens são classificados por chave de partição para que itens repetidos compartilhem a mesma chave de partição.
Para evitar uma partição em funcionamento contínuo, recomendamos que você randomize a ordem nesses casos. Isso pode melhorar a performance ao espalhar as operações de gravação. Para ter mais informações, consulte Distribuir a atividade de gravação de maneira eficiente durante o upload de dados no DynamoDB.
Compacte os dados para manter o tamanho total do objeto do S3 abaixo do limite regional
No processo de importação do S3, há um limite na soma do tamanho total dos dados do objeto do S3 a serem importados. O limite é de 15 TB nas regiões us-east-1, us-west-2 e eu-west-1 e de 1 TB em todas as outras regiões. O limite é baseado nos tamanhos brutos dos objetos do S3.
A compactação permite que mais dados brutos se encaixem dentro do limite. Se a compactação por si só não for suficiente para ajustar a importação dentro do limite, você também poderá entrar em contato com o AWS Premium Support
Esteja ciente de como o tamanho do item afeta a performance
Se o tamanho médio do item for muito pequeno (abaixo de 200 bytes), o processo de importação poderá demorar um pouco mais do que para itens maiores.
Considere a possibilidade de importar sem nenhum índice secundário global
A duração de uma tarefa de importação pode depender da presença de um ou vários índices secundários globais (GSIs). Se você planeja estabelecer índices com chaves de partição com baixa cardinalidade, poderá ver uma importação mais rápida se adiar a criação do índice até a conclusão da tarefa de importação (em vez de incluí-los no trabalho de importação).
nota
A criação de um GSI durante a importação não resulta em cobranças de gravação (a criação de um GSI após a importação resultaria).