Criar um conjunto de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar um conjunto de dados

As seções a seguir descrevem como criar um conjunto de dados no Amazon SageMaker Canvas. Para modelos personalizados, você pode criar conjuntos de dados para dados tabulares e de imagem. Para eady-to-use modelos R, você pode usar conjuntos de dados tabulares e de imagem, bem como conjuntos de dados de documentos. Escolha seu fluxo de trabalho com base nas informações a seguir:

nota

Para obter informações sobre como importar um conjunto de dados de documentos para eady-to-use modelos R que aceitam dados de documentos, consulte o Importar dados do documento fluxo de trabalho na documentação dos eady-to-use modelos R.

Um conjunto de dados pode consistir em vários arquivos. Por exemplo, você pode ter vários arquivos de dados de inventário no formato CSV. Você pode carregar esses arquivos juntos como um conjunto de dados, desde que o esquema (ou os nomes das colunas e os tipos de dados) dos arquivos correspondam.

O Canvas também é compatível com o gerenciamento de várias versões do seu conjunto de dados. Quando você cria um conjunto de dados, a primeira versão é rotulada como V1. Você pode criar uma nova versão do seu conjunto de dados atualizando seu conjunto de dados. Você pode fazer uma atualização manual ou configurar um cronograma automatizado para atualizar seus conjuntos de dados com dados novos. Para ter mais informações, consulte Atualizar um conjunto de dados.

Ao importar seus dados para o Canvas, certifique-se de que eles atendam aos requisitos da tabela a seguir. As limitações são específicas para o tipo de modelo que você está criando.

Limite Modelos de 2 categorias, 3 ou mais categorias, numéricos e de séries temporais Modelos de previsão de texto Modelos de previsão de imagem *Dados do documento para modelos R eady-to-use

Tipos de arquivos compatíveis

CSV e Parquet (upload local, Amazon S3 ou bancos de dados)

JSON (bancos de dados)

CSV e Parquet (upload local, Amazon S3 ou bancos de dados)

JSON (bancos de dados)

JPG, PNG

PDF, JPG, PNG, TIFF

Tamanho máximo do arquivo

5 GB (para todos os arquivos no conjunto de dados)

5 MB (para todos os arquivos no conjunto de dados)

30 MB por imagem

5 MB por documento

Número máximo de arquivos em conjuntos de dados tabulares

50

50

N/D

N/D

Número máximo de arquivos em conjuntos de dados tabulares para um único upload manual

20

20

N/D

N/D

Número máximo de colunas

1000

1000

N/D

N/D

Número máximo de entradas (linhas, imagens ou documentos) para Criações rápidas

50.000 linhas

7.500 linhas

5.000 imagens

N/D

Número máximo de entradas (linhas, imagens ou documentos) para Criações padrão

N/D

150.000 linhas

180.000 imagens

N/D

Número mínimo de entradas (linhas) para Criações rápidas

2 categorias: 500 linhas

3 ou mais categorias, numéricas, séries temporais: N/D

N/D

N/D

N/D

Número mínimo de entradas (linhas, imagens ou documentos) para Criações padrão

250 linhas

50 linhas

50 imagens

N/D

Número mínimo de entradas (linhas ou imagens) por rótulo

N/D

25 linhas

25 linhas

N/D

Número mínimo de rótulos

2 categorias: 2

3 ou mais categorias: 3

Numérico, série temporal: N/D

2

2

N/D

Tamanho mínimo da amostra para amostragem aleatória

500

N/D

N/D

N/D

Tamanho máximo da amostra para amostragem aleatória

40.000

N/D

N/D

N/D

Número máximo de rótulos

2 categorias: 2

3 ou mais categorias, numéricas, séries temporais: N/D

1000

1000

N/D

*Atualmente, os dados do documento são compatíveis apenas com eady-to-use modelos R que aceitam dados do documento. Você não pode criar um modelo personalizado com dados do documento.

Observe, também, as seguintes restrições:

  • Para dados tabulares, o Canvas não permite selecionar qualquer arquivo com extensões diferentes de .csv, .parquet, .parq e .pqt para upload local e importação do Amazon S3. Os arquivos CSV podem usar qualquer delimitador comum ou personalizado e não devem ter caracteres de nova linha, exceto quando denotam uma nova linha.

  • Para dados tabulares usando arquivos Parquet, observe o seguinte:

    • Os arquivos Parquet não podem incluir tipos complexos, como mapas e listas.

    • Os nomes das colunas dos arquivos do Parquet não podem conter espaços.

    • Se estiver usando compactação, os arquivos Parquet devem usar os tipos de compactação gzip ou snappy. Para obter mais informações sobre os tipos de compactação anteriores, consulte a documentação do gzip e a documentação do snappy.

  • Para dados de imagem, se você tiver imagens não rotuladas, deverá rotulá-las antes de criar seu modelo. Para obter informações sobre como atribuir rótulos a imagens dentro do aplicativo Canvas, consulte Editar um conjunto de dados de imagem.

  • Se você configurar atualizações automáticas de conjuntos de dados ou configurações automáticas de previsão em lote, só poderá criar um total de 20 configurações em seu aplicativo Canvas. Para ter mais informações, consulte Gerenciar automações.

Depois de importar um conjunto de dados, você pode visualizá-lo na página Conjuntos de dados a qualquer momento.

Importar dados tabulares

Com os conjuntos de dados tabulares, você pode criar modelos de previsão categóricos, numéricos, de séries temporais e de texto. Revise a tabela de limitações na seção anterior Importar um conjunto de dados para garantir que seus dados atendam aos requisitos de dados tabulares (observe que os limites de tamanho de amostra só se aplicam ao visualizar seus dados antes de criar seu modelo).

Use o procedimento a seguir para importar um conjunto de dados tabular para o Canvas:

  1. Abra seu aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Escolha Importar dados.

  4. No menu suspenso, escolha Tabular.

  5. Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.

  6. Na página Criar conjunto de dados tabular, abra o menu suspenso Fonte de dados.

  7. Selecione sua fonte de dados:

    • Para fazer upload de arquivos do seu computador, selecione Upload local.

    • Para importar dados de outra fonte, como um bucket do Amazon S3 ou um banco de dados Snowflake, pesquise sua fonte de dados na barra de pesquisa de fonte de dados. Em seguida, escolha o bloco para a fonte de dados desejada.

      nota

      Você só pode importar dados dos blocos que têm uma conexão ativa. Se você quiser se conectar a uma fonte de dados que não está disponível para você, entre em contato com o administrador. Se você for administrador, consulte Conectar-se à fonte de dados.

    A captura de tela a seguir mostra o menu suspenso Fonte de dados.

    Captura de tela mostrando o menu suspenso Fonte de dados e uma busca por uma fonte de dados na barra de pesquisa.
  8. (Opcional) Se você estiver se conectando a um banco de dados Amazon Redshift ou Snowflake pela primeira vez, uma caixa de diálogo será exibida para criar uma conexão. Preencha a caixa de diálogo com suas credenciais e escolha Criar conexão. Se você já tiver uma conexão, escolha sua conexão.

  9. Na sua fonte de dados, selecione os arquivos a serem importados. Para upload e importação locais do Amazon S3, você pode selecionar arquivos. Somente para o Amazon S3, você também tem a opção de inserir diretamente o URI, o alias ou o ARN do S3 do seu bucket ou ponto de acesso do S3 no campo Input S3 endpoint e, em seguida, escolher os arquivos a serem importados. Para fontes de banco de drag-and-drop dados, você pode usar tabelas de dados no painel de navegação esquerdo.

  10. (Opcional) Para fontes de dados tabulares que suportam consultas SQL (como Amazon Redshift, Amazon Athena ou Snowflake), você pode escolher Editar em SQL para fazer consultas SQL antes de importá-las.

    A captura de tela a seguir mostra a visualização Editar SQL de uma fonte de dados do Amazon Athena.

    Captura de tela mostrando uma consulta SQL na visualização Editar SQL para dados do Amazon Athena.
  11. Escolha Visualizar conjunto de dados para visualizar seus dados antes de importá-los.

  12. Nas configurações de importação, insira o nome do conjunto de dados ou use o nome padrão do conjunto de dados.

  13. (Opcional) Para dados que você importa do Amazon S3, você vê as configurações avançadas e pode preencher os seguintes campos:

    1. Ative a opção Usar primeira linha como cabeçalho se quiser usar a primeira linha do seu conjunto de dados como os nomes das colunas. Se você selecionou vários arquivos, isso se aplica a cada arquivo.

    2. Se você estiver importando um arquivo CSV, na lista suspensa Codificação de arquivo (CSV), selecione a codificação do arquivo do conjunto de dados. UTF-8é o padrão.

    3. No menu suspenso Delimitador, selecione o delimitador que separa cada célula em seus dados. O delimitador padrão é. , Você também pode especificar um delimitador personalizado.

    4. Selecione Detecção de várias linhas se quiser que o Canvas analise manualmente todo o seu conjunto de dados para células de várias linhas. Por padrão, essa opção não está selecionada e o Canvas determina se deve ou não usar o suporte de várias linhas tirando uma amostra dos seus dados. No entanto, o Canvas pode não detectar nenhuma célula de várias linhas na amostra. Se você tiver células de várias linhas, recomendamos que você selecione a opção Detecção de várias linhas para forçar o Canvas a verificar todo o conjunto de dados em busca de células com várias linhas.

  14. Quando você estiver pronto para importar seus dados, escolha Criar conjunto de dados.

Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.

Quando o Status do seu conjunto de dados é exibido como Ready, o Canvas importou seus dados com sucesso e você pode continuar com a construção de um modelo.

Se você tiver uma conexão com uma fonte de dados, como um banco de dados do Amazon Redshift ou um conector SaaS, poderá retornar a essa conexão. Para o Amazon Redshift e o Snowflake, você pode adicionar outra conexão criando outro conjunto de dados, retornando à página Importar dados e escolhendo o bloco da fonte de dados para essa conexão. No menu suspenso, você pode abrir a conexão anterior ou escolher Adicionar conexão.

nota

Para plataformas SaaS, você só pode ter uma conexão por fonte de dados.

Importar dados de imagem

Com conjuntos de dados de imagem, você pode criar modelos personalizados de previsão de imagem de rótulo único que preveem um rótulo para uma imagem. Revise as limitações na seção anterior Importar conjunto de dados para garantir que o conjunto de dados de imagem atenda aos requisitos de dados da imagem.

nota

Você só pode importar conjuntos de dados de imagens por upload de arquivo local ou de um bucket do Amazon S3. Além disso, para conjuntos de dados de imagens, você deve ter pelo menos 25 imagens por rótulo.

Use o procedimento a seguir para importar um conjunto de dados de imagem para o Canvas:

  1. Abra seu aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Escolha Importar dados.

  4. No menu suspenso, escolha Imagem.

  5. Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.

  6. Na página Importar, abra o menu suspenso Fonte de dados.

  7. Selecione sua fonte de dados. Para fazer upload de arquivos do seu computador, selecione Upload local. Para importar arquivos do Amazon S3, escolha Amazon S3.

  8. No seu computador ou bucket do Amazon S3, selecione as imagens ou pastas de imagens que você deseja carregar.

  9. Quando você estiver pronto para importar seus dados, escolha Importar dados.

Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.

Quando o Status do seu conjunto de dados é exibido como Ready, o Canvas importou seus dados com sucesso e você pode continuar com a construção de um modelo.

Ao criar seu modelo, você pode editar seu conjunto de dados de imagem e atribuir ou reatribuir rótulos, adicionar imagens ou excluir imagens do seu conjunto de dados. Para obter mais informações sobre como editar seu conjunto de dados de imagens, consulte Editar um conjunto de dados de imagem.

Importar dados do documento

Os eady-to-use modelos R para análise de despesas, análise de documentos de identidade, análise de documentos e consultas de documentos suportam dados de documentos. Você não pode criar um modelo personalizado com dados do documento.

Com conjuntos de dados de documentos, você pode gerar previsões para modelos R eady-to-use de análise de despesas, análise de documentos de identidade, análise de documentos e consultas de documentos. Revise a tabela de limitações na seção Criar um conjunto de dados para garantir que o conjunto de dados do documento atenda aos requisitos de dados do documento.

nota

Você só pode importar conjuntos de dados de documentos por upload de arquivo local ou de um bucket do Amazon S3.

Use o procedimento a seguir para importar um conjunto de dados do documento para o Canvas:

  1. Abra seu aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Escolha Importar dados.

  4. No menu suspenso, escolha Documento.

  5. Na caixa de diálogo pop-up, no campo Nome do conjunto de dados, insira um nome para o conjunto de dados e escolha Criar.

  6. Na página Importar, abra o menu suspenso Fonte de dados.

  7. Selecione sua fonte de dados. Para fazer upload de arquivos do seu computador, selecione Upload local. Para importar arquivos do Amazon S3, escolha Amazon S3.

  8. No seu computador ou bucket do Amazon S3, selecione os arquivos de documentos que você deseja carregar.

  9. Quando você estiver pronto para importar seus dados, escolha Importar dados.

Enquanto seu conjunto de dados está sendo importado para o Canvas, você pode ver seus conjuntos de dados listados na página Conjuntos de dados. Nesta página, você pode Visualizar os detalhes do conjunto de dados.

Quando o Status do seu conjunto de dados é exibido como Ready, o Canvas importou seus dados com sucesso.

Na página Conjuntos de dados, você pode escolher seu conjunto de dados para visualizá-lo, o que mostra até os primeiros 100 documentos do seu conjunto de dados.

Visualizar os detalhes do conjunto de dados

Para cada um dos seus conjuntos de dados, você pode visualizar todos os arquivos em um conjunto de dados, o histórico de versões do conjunto de dados e todas as configurações de atualização automática do conjunto de dados. Na página Conjunto de dados, você também pode iniciar ações como Atualizar um conjunto de dados ou Criar um modelo personalizado.

Para visualizar os detalhes de um conjunto de dados, faça o seguinte:

  1. Abra o aplicativo SageMaker Canvas.

  2. No painel de navegação à esquerda, selecione Conjunto de dados.

  3. Na lista de conjuntos de dados, escolha seu conjunto de dados.

Na guia Dados, você pode ver uma prévia dos seus dados. Se você escolher Detalhes do conjunto de dados, poderá ver todos os arquivos que fazem parte do seu conjunto de dados. Escolha um arquivo para ver somente os dados desse arquivo na visualização. Para conjuntos de dados de imagens, a visualização mostra apenas as 100 primeiras imagens do seu conjunto de dados.

Na guia Histórico de versões, você pode ver uma lista de todas as versões do seu conjunto de dados. Uma nova versão é criada sempre que você atualiza um conjunto de dados. Para saber mais sobre como atualizar um conjunto de dados, consulte Atualizar um conjunto de dados. A captura de tela a seguir mostra a guia Histórico de versões no aplicativo Canvas.

Captura de tela da guia Histórico de versões de um conjunto de dados, com uma lista das versões do conjunto de dados.

Na guia Atualizações automáticas, você pode habilitar as atualizações automáticas para o conjunto de dados e definir uma configuração para atualizar seu conjunto de dados regularmente. Para saber mais sobre como configurar atualizações automáticas para um conjunto de dados, consulte Configurar atualizações automáticas para um conjunto de dados. A captura de tela a seguir mostra a guia Atualizações automáticas com as atualizações automáticas ativadas e uma lista dos trabalhos de atualização automática que foram executados no conjunto de dados.

Captura de tela da guia Atualizações automáticas para um conjunto de dados mostrando as atualizações automáticas habilitadas e uma lista dos trabalhos de atualização automática.