Importar - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Importar

Você pode usar o Amazon SageMaker Data Wrangler para importar dados das seguintes fontes de dados: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift e Snowflake. O conjunto de dados que você importa pode incluir até 1.000 colunas.

Algumas fontes de dados permitem que você adicione várias conexões de dados:

  • Você pode se conectar a vários clusters do Amazon Redshift. Cada cluster se torna uma fonte de dados.

  • Você pode consultar qualquer banco de dados do Athena em sua conta para importar dados desse banco de dados.

Quando você importa um conjunto de dados de uma fonte de dados, ele aparece no seu fluxo de dados. O Data Wrangler infere automaticamente o tipo de dados de cada coluna em seu conjunto de dados. Para modificar esses tipos, selecione a etapa Tipos de dados e selecione Editar tipos de dados.

Quando você importa dados do Athena ou do Amazon Redshift, os dados importados são armazenados automaticamente no bucket S3 SageMaker padrão para o AWS Região na qual você está usando o Studio Classic. Além disso, o Athena armazena os dados que você visualiza no Data Wrangler neste bucket. Para saber mais, consulte Armazenamento de dados importados.

Importante

O bucket padrão do Amazon S3 pode não ter as configurações de segurança menos permissivas, como política de bucket e criptografia do lado do servidor (). SSE É altamente recomendável que você Adicione uma política de bucket para restringir o acesso aos conjuntos de dados importados para o Data Wrangler.

Importante

Além disso, se você usa a política gerenciada para SageMaker, é altamente recomendável que você a reduza até a política mais restritiva que permita realizar seu caso de uso. Para obter mais informações, consulte Conceder permissão a uma IAM função para usar o Data Wrangler.

Todas as fontes de dados, exceto o Amazon Simple Storage Service (Amazon S3), exigem que você especifique SQL uma consulta para importar seus dados. Para cada consulta, você deve especificar o seguinte:

  • Catálogo de dados

  • Database

  • Tabela

Você pode especificar o nome do banco de dados ou do catálogo de dados nos menus suspensos ou na consulta. Veja os exemplos de consultas:

  • select * from example-data-catalog-name.example-database-name.example-table-name - A consulta não usa nada especificado nos menus suspensos da interface do usuário (UI) para ser executada. Ele consulta example-table-name dentro de example-database-name dentro de example-data-catalog-name.

  • select * from example-database-name.example-table-name - A consulta usa o catálogo de dados que você especificou no menu suspenso Catálogo de dados para ser executada. Ele consulta example-table-name dentro de example-database-name do catálogo de dados que você especificou.

  • select * from example-table-name - A consulta exige que você selecione campos para os menus suspensos Catálogo de dados e Nome do bancode dados. Faz consultas em example-table-name dentro do catálogo de dados dentro do banco de dados e catálogo de dados que você especificou.

O link entre o Data Wrangler e a fonte de dados é uma conexão. Você usa a conexão para importar dados da sua fonte de dados.

Existem os seguintes tipos de conexões:

  • Direta

  • Catalogado

O Data Wrangler sempre tem acesso aos dados mais recentes em uma conexão direta. Se os dados na fonte de dados foram atualizados, você pode usar a conexão para importar os dados. Por exemplo, se alguém adicionar um arquivo a um dos seus buckets do Amazon S3, você poderá importar o arquivo.

Uma conexão catalogada é o resultado de uma transferência de dados. Os dados na conexão catalogada não têm necessariamente os dados mais recentes. Por exemplo, você pode configurar uma transferência de dados entre o Salesforce e o Amazon S3. Se houver uma atualização nos dados do Salesforce, você deverá transferir os dados novamente. Você pode automatizar o processo de transferência de dados. Para obter mais informações sobre transferências de dados, consulte Importar dados de plataformas de software como serviço (SaaS).

Importar dados do Amazon S3

Você pode usar o Amazon Simple Storage Service (Amazon S3) para armazenar e recuperar qualquer volume de dados, a qualquer momento, de qualquer lugar na web. Você pode realizar essas tarefas usando o AWS Management Console, que é uma interface web simples e intuitiva, e o Amazon S3API. Se você armazenou seu conjunto de dados localmente, recomendamos que você o adicione a um bucket do S3 para importação no Data Wrangler. Para aprender como fazer isso, consulte Fazer upload de um objeto para um bucket no Guia do Usuário do Amazon Simple Storage Service.

O Data Wrangler usa o S3 Select para permitir que você visualize seus arquivos Amazon S3 no Data Wrangler. Você incorre em cobranças padrão para cada visualização prévia do arquivo. Para saber mais sobre preços, consulte a guia Solicitações e recuperação de dados na definição de preço do Amazon S3.

Importante

Se você planeja exportar um fluxo de dados e iniciar um trabalho do Data Wrangler, ingerir dados em uma SageMaker feature store ou criar um SageMaker pipeline, saiba que essas integrações exigem que os dados de entrada do Amazon S3 estejam localizados no mesmo AWS região.

Importante

Se você estiver importando um CSV arquivo, verifique se ele atende aos seguintes requisitos:

  • Um registro no seu conjunto de dados não pode ser maior que uma linha.

  • Uma barra invertida, \, é o único caractere de escape válido.

  • Seu conjunto de dados deve usar um dos seguintes delimitadores:

    • Vírgula - ,

    • Dois pontos - :

    • Ponto e vírgula - ;

    • Barra vertical - |

    • Aba - [TAB]

Para economizar espaço, você pode importar CSV arquivos compactados.

O Data Wrangler permite importar todo o conjunto de dados ou amostrar uma parte dele. Para o Amazon S3, ele fornece as seguintes opções de amostragem:

  • Nenhum — Importar todo o conjunto de dados.

  • Primeiro K — Fazer uma amostra das primeiras K linhas do conjunto de dados, em que K é um número inteiro que você especifica.

  • Aleatório - obtém uma amostra aleatória de um tamanho especificado por você.

  • Estratificado - obtém uma amostra aleatória estratificada. Uma amostra estratificada preserva proporção de valores em uma coluna.

Depois de importar seus dados, você também pode usar o transformador de amostragem para obter uma ou mais amostras de todo o seu conjunto de dados. Para obter mais informações sobre a transformação de amostra, consulte Amostragem.

É possível usar um dos seguintes identificadores de recurso para importar seus dados:

  • Um Amazon S3 URI que usa um bucket do Amazon S3 ou um ponto de acesso do Amazon S3

  • Um alias de ponto de acesso Amazon S3.

  • Um Amazon Resource Name (ARN) que usa um ponto de acesso do Amazon S3 ou um bucket do Amazon S3

Os pontos de Acesso Amazon S3 são endpoints de rede anexados a buckets. Cada ponto de acesso possui permissões distintas e controles de rede que você pode configurar. Para obter mais informações sobre pontos de acesso, consulte Como gerenciar o acesso a dados com os pontos de acesso Amazon S3.

Importante

Se você estiver usando um Amazon Resource Name (ARN) para importar seus dados, ele deve ser para um recurso localizado no mesmo Região da AWS que você está usando para acessar o Amazon SageMaker Studio Classic.

Você pode importar um único arquivo ou vários arquivos como um conjunto de dados. É possível usar a operação de importação de vários arquivos quando você tem um conjunto de dados que é particionado em arquivos separados. Pega todos os arquivos de um diretório do Amazon S3 e os importa como um único conjunto de dados. Para obter informações sobre os tipos de arquivos que você pode importar e como importá-los, consulte as seções a seguir.

Single File Import

Você pode importar arquivos individuais nos seguintes formatos:

  • Valores separados por vírgula () CSV

  • Parquet

  • Notação de objeto Javascript () JSON

  • Colunar de linha otimizado () ORC

  • Imagem - O Data Wrangler usa o OpenCV para importar imagens. Para obter mais informações sobre os formatos de imagem compatíveis, consulte Leitura e gravação de arquivos de imagem.

Para arquivos formatados emJSON, o Data Wrangler suporta JSON linhas (.jsonl) e documentos (.json). JSON Quando você visualiza seus dados, eles são exibidos automaticamente JSON em formato tabular. Para JSON documentos aninhados maiores que 5 MB, o Data Wrangler mostra o esquema da estrutura e das matrizes como valores no conjunto de dados. Use os operadores Nivelados estruturados e Explodir a matriz para exibir os valores aninhados em formato tabular. Para ter mais informações, consulte Dados do Unnest JSON e Explodir matriz.

Ao escolher um conjunto de dados, você pode renomeá-lo, especificar o tipo de arquivo e identificar a primeira linha como cabeçalho.

Você pode importar um conjunto de dados que você particionou em vários arquivos em um bucket do Amazon S3 em uma única etapa de importação.

Para importar um conjunto de dados para o Data Wrangler a partir de um único arquivo que você armazenou no Amazon S3:
  1. Se você não estiver atualmente na guia Importar, escolha Importar.

  2. Em Disponível, escolha Amazon S3.

  3. Em Importar dados tabulares, dados de imagem ou dados de séries temporais do S3, faça o seguinte:

    • Escolha um bucket do Amazon S3 na visualização tabular e navegue até o arquivo que você está importando.

    • Para a fonte do S3, especifique um bucket do Amazon S3 ou um Amazon URI S3 e selecione Go. O Amazon S3 URIs pode estar em um dos seguintes formatos:

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/conjuntos de dados/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Escolha o conjunto de dados para abrir o painel Importar configurações.

  5. Se o CSV arquivo tiver um cabeçalho, marque a caixa de seleção ao lado de Adicionar cabeçalho à tabela.

  6. Use a tabela de Visualização para visualizar seu conjunto de dados. Essa tabela mostra até 100 linhas.

  7. No painel Detalhes, verifique ou altere o nome e o tipo de arquivo do seu conjunto de dados. Se você adicionar um Nome que contenha espaços, esses espaços serão substituídos por sublinhados quando seu conjunto de dados for importado.

  8. Especifique a configuração de amostragem que gostaria de usar.

  9. Escolha Importar.

Multifile Import

A seguir estão os requisitos para importar vários arquivos:

  • Os arquivos devem estar na mesma pasta do seu bucket do Amazon S3.

  • Os arquivos devem compartilhar o mesmo cabeçalho ou não ter cabeçalho.

Cada arquivo deve estar em um dos seguintes formatos:

  • CSV

  • Parquet

  • Colunar de linha otimizado () ORC

  • Imagem - O Data Wrangler usa o OpenCV para importar imagens. Para obter mais informações sobre os formatos de imagem compatíveis, consulte Leitura e gravação de arquivos de imagem.

Siga o procedimento abaixo para importar vários arquivos.

Para importar um conjunto de dados para o Data Wrangler a partir de vários arquivos que você armazenou em um diretório do Amazon S3
  1. Se você não estiver atualmente na guia Importar, escolha Importar.

  2. Em Disponível, escolha Amazon S3.

  3. Em Importar dados tabulares, dados de imagem ou dados de séries temporais do S3, faça o seguinte:

    • Escolha um bucket do Amazon S3 na visualização tabular e navegue até a pasta que contém os arquivos que você está importando.

    • Para a fonte do S3, especifique o bucket do Amazon S3 ou um Amazon URI S3 com seus arquivos e selecione Go. Os itens a seguir são válidosURIs:

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Selecione a pasta que contém os arquivos que você quer importar. Cada arquivo deve estar em um dos formatos suportados. Seus arquivos devem ser do mesmo tipo de dados.

  5. Se sua pasta contiver CSV arquivos com cabeçalhos, marque a caixa de seleção ao lado de Primeira linha é cabeçalho.

  6. Se seus arquivos estiverem aninhados em outras pastas, marque a caixa de seleção ao lado de Incluir diretórios aninhados.

  7. (Opcional) Escolha Adicionar coluna de nome de arquivo e adicione uma coluna ao conjunto de dados que mostre o nome do arquivo para cada observação.

  8. (Opcional) Por padrão, o Data Wrangler não mostra uma prévia de uma pasta. Você pode ativar a visualização escolhendo o botão azul de Desligar a visualização. Uma prévia mostra as primeiras 10 linhas dos primeiros 10 arquivos na pasta.

  9. No painel Detalhes, verifique ou altere o nome e o tipo de arquivo do seu conjunto de dados. Se você adicionar um Nome que contenha espaços, esses espaços serão substituídos por sublinhados quando seu conjunto de dados for importado.

  10. Especifique a configuração de amostragem que gostaria de usar.

  11. Escolha Importar conjunto de dados.

Você também pode usar parâmetros para importar um subconjunto de arquivos que correspondam a um padrão. Os parâmetros ajudam você a escolher de forma mais seletiva os arquivos que você está importando. Para começar a utilizar parâmetros, edite a fonte de dados e aplique-os ao caminho que você está utilizando para importar os dados. Para obter mais informações, consulte Reutilização de fluxos de dados para diferentes conjuntos de dados.

Importar dados do Athena

Use o Amazon Athena para importar dados do Amazon Simple Storage Service (Amazon S3) para o Data Wrangler. No Athena, você escreve SQL consultas padrão para selecionar os dados que você está importando do Amazon S3. Para obter mais informações, consulte O que é o Amazon Athena?

Você pode usar o AWS Management Console para configurar o Amazon Athena. Você deve criar pelo menos um banco de dados no Athena antes de começar a executar consultas. Para obter mais informações sobre como começar com o Athena, consulte Conceitos básicos.

O Athena está diretamente integrado ao Data Wrangler. Você pode escrever consultas no Athena sem precisar sair da interface do Data Wrangler.

Além de escrever consultas simples no Athena no Data Wrangler, você também pode usar:

Consulte Athena no Data Wrangler

nota

O Data Wrangler não oferece suporte a consultas federadas.

Se você usa AWS Lake Formation com Athena, certifique-se de que suas permissões do Lake Formation não substituam IAM as permissões do banco de IAM dados. sagemaker_data_wrangler

O Data Wrangler permite importar todo o conjunto de dados ou amostrar uma parte dele. Para o Athena, ele oferece as seguintes opções de amostragem:

  • Nenhum — Importar todo o conjunto de dados.

  • Primeiro K — Fazer uma amostra das primeiras K linhas do conjunto de dados, em que K é um número inteiro que você especifica.

  • Aleatório - obtém uma amostra aleatória de um tamanho especificado por você.

  • Estratificado - obtém uma amostra aleatória estratificada. Uma amostra estratificada preserva proporção de valores em uma coluna.

O procedimento a seguir mostra como importar um conjunto de dados do Athena para o Data Wrangler.

Para importar um conjunto de dados do Athena para o Data Wrangler
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Amazon Athena.

  10. Para Catálogo de dados, escolha um catálogo de dados.

  11. Use a lista suspensa Banco de dados para selecionar o banco de dados que deseja consultar. Ao selecionar um banco de dados, você pode visualizar todas as tabelas em seu banco de dados usando as Tabelas listadas em Detalhes.

  12. (Opcional) Escolha Configuração avançada.

    1. Escolha um Grupo de trabalho.

    2. Se seu grupo de trabalho não impôs o local de saída do Amazon S3 ou se você não usa um grupo de trabalho, especifique um valor para a localização dos resultados da consulta no Amazon S3.

    3. (Opcional) Em Período de retenção de dados, marque a caixa de seleção para definir um período de retenção de dados e especificar o número de dias para armazenar os dados antes de serem excluídos.

    4. (Opcional) Por padrão, o Data Wrangler salva a conexão. Você pode optar por desmarcar a caixa de seleção e não salvar a conexão.

  13. Para Amostragem, escolha um método de amostragem. Escolha Nenhum para desativar a amostragem.

  14. Digite sua consulta no editor de consultas e escolha Executar para executar a consulta. Após uma consulta bem-sucedida, você pode visualizar seu resultado abaixo do editor.

    nota

    Os dados do Salesforce usam o tipo timestamptz. Se você estiver consultando a coluna de timestamp que importou do Salesforce para o Athena, converta os dados na coluna para o tipo timestamp. A seguinte consulta converte a coluna de timestamp para o tipo correto.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Para importar os resultados da sua consulta, selecione Importar.

Depois de concluir o procedimento anterior, o conjunto de dados que você consultou e importou aparece no fluxo do Data Wrangler.

Por padrão, o Data Wrangler salva as configurações de conexão como uma nova conexão. Quando você importa seus dados, a consulta que você já especificou aparece como uma nova conexão. As conexões salvas armazenam informações sobre os grupos de trabalho do Athena e os buckets do Amazon S3 que você está usando. Ao se conectar novamente à fonte de dados, você pode escolher a conexão salva.

Como gerenciar os resultados da consulta

O Data Wrangler suporta o uso de grupos de trabalho do Athena para gerenciar os resultados da consulta em um AWS conta. Você pode especificar um local de saída do Amazon S3 para cada grupo de trabalho. Você também pode especificar se a saída da consulta pode ser direcionada para diferentes locais no Amazon S3. Para obter mais informações, consulte Como usar os grupos de trabalho para controlar o acesso a consultas e custos.

Seu grupo de trabalho pode estar configurado para impor o local de saída da consulta do Amazon S3. Você não pode alterar a localização de saída dos resultados da consulta para esses grupos de trabalho.

Se você não usa um grupo de trabalho nem especifica um local de saída para suas consultas, o Data Wrangler usa o bucket padrão do Amazon S3 no mesmo AWS Região na qual sua instância do Studio Classic está localizada para armazenar os resultados da consulta do Athena. Ele cria tabelas temporárias neste banco de dados para transferir a saída da consulta para este bucket do Amazon S3. Ele exclui essas tabelas após a importação dos dados; no entanto, o banco de dados, sagemaker_data_wrangler, persiste. Para saber mais, consulte Armazenamento de dados importados.

Para usar grupos de trabalho do Athena, configure a IAM política que dá acesso aos grupos de trabalho. Se você estiver usando um SageMaker-Execution-Role, recomendamos adicionar a política à função. Para obter mais informações sobre IAM políticas para grupos de trabalho, consulte IAMpolíticas para acessar grupos de trabalho. Por exemplo, para políticas do grupo de trabalho, consulte Políticas de exemplo do grupo de trabalho.

Definir os períodos de retenção de dados

O Data Wrangler define automaticamente um período de retenção de dados para os resultados da consulta. Os resultados são excluídos após o término do período de retenção. Por exemplo, o período de retenção padrão é de cinco dias. Os resultados da consulta são excluídos após cinco dias. Essa configuração é projetada para ajudar na limpeza de dados que você não está mais utilizando. Limpar seus dados impede que usuários não autorizados tenham acesso. Também ajuda a controlar os custos de armazenamento de seus dados no Amazon S3.

Se você não definir um período de retenção, a configuração do duração do Amazon S3 determinará a duração em que os objetos serão armazenados. A política de retenção de dados que você especificou para a configuração de duração remove quaisquer resultados de consulta que sejam mais antigos do que a configuração de duração que você especificou. Para obter mais informações, consulte Definir configuração da duração de um bucket.

O Data Wrangler usa as configurações de duração do Amazon S3 para gerenciar a expiração e retenção de dados. Você deve conceder permissões à sua função de IAM execução do Amazon SageMaker Studio Classic para gerenciar as configurações do ciclo de vida do bucket. Use o seguinte procedimento para conceder permissões.

Para conceder permissões para gerenciar a configuração de duração, siga os seguintes passos.

  1. Faça login no AWS Management Console e abra o IAM console em https://console.aws.amazon.com/iam/.

  2. Escolha Perfis.

  3. Na barra de pesquisa, especifique a função de SageMaker execução da Amazon que o Amazon SageMaker Studio Classic está usando.

  4. Selecione o perfil de .

  5. Escolha Add permissions (Adicionar permissões).

  6. Escolha Criar política em linha.

  7. Para Serviço, especifique Secrets Manager e escolha-o.

  8. Na seção Ler, escolha GetLifecycleConfiguration.

  9. Na seção Escrever, escolha PutLifecycleConfiguration.

  10. Em Recursos, selecione Específico.

  11. Em Ações, selecione o ícone de seta ao lado de Gerenciamento de permissões.

  12. Escolha PutResourcePolicy.

  13. Em Recursos, selecione Específico.

  14. Escolha a caixa de seleção ao lado de Qualquer nesta conta.

  15. Escolha Revisar política.

  16. Em Nome, especifique um nome.

  17. Escolha Criar política.

Importar dados do Amazon Redshift

O Amazon Redshift é um serviço de data warehouse totalmente gerenciado e em escala de petabytes na Nuvem . A primeira etapa para criar um data warehouse é executar um conjunto de nós, chamado cluster do Amazon Redshift. Depois de provisionar seu cluster, você pode fazer o upload do seu conjunto de dados e, em seguida, realizar consultas de análise de dados.

Você pode se conectar e consultar um ou mais clusters do Amazon Redshift no Data Wrangler. Para usar essa opção de importação, você deve criar pelo menos um cluster no Amazon Redshift. Para saber como, consulte Conceitos básicos do Amazon Redshift.

Você pode gerar os resultados da sua consulta do Amazon Redshift em um dos seguintes locais:

  • O bucket padrão do Amazon S3

  • Um local de saída do Amazon S3 que você especifica

Você pode importar o conjunto de dados inteiro ou fazer uma amostra de uma parte dele. Para o Amazon Redshift, ele fornece as seguintes opções de amostragem:

  • Nenhum — Importar todo o conjunto de dados.

  • Primeiro K — Fazer uma amostra das primeiras K linhas do conjunto de dados, em que K é um número inteiro que você especifica.

  • Aleatório - obtém uma amostra aleatória de um tamanho especificado por você.

  • Estratificado - obtém uma amostra aleatória estratificada. Uma amostra estratificada preserva proporção de valores em uma coluna.

O bucket padrão do Amazon S3 está no mesmo AWS Região na qual sua instância do Studio Classic está localizada para armazenar os resultados da consulta do Amazon Redshift. Para obter mais informações, consulte Armazenamento de dados importados.

Para o bucket padrão do Amazon S3 ou para o bucket que você especificar, você tem as seguintes opções de criptografia:

  • O valor AWS criptografia do lado do serviço com uma chave gerenciada do Amazon S3 (-S3) SSE

  • Uma AWS Key Management Service (AWS KMS) chave que você especifica

Uma AWS KMS chave é uma chave de criptografia que você cria e gerencia. Para obter mais informações sobre KMS chaves, consulte AWS Key Management Service.

Você pode especificar um AWS KMS chave usando a chave ARN ou a ARN do seu AWS conta.

Se você usar a política IAM gerenciada,AmazonSageMakerFullAccess, para conceder a uma função permissão para usar o Data Wrangler no Studio Classic, seu nome de usuário do banco de dados deverá ter o prefixo. sagemaker_access

Utilize os procedimentos a seguir para aprender como adicionar um novo cluster.

nota

O Data Wrangler usa os API dados do Amazon Redshift com credenciais temporárias. Para saber mais sobre issoAPI, consulte Como usar os dados do Amazon Redshift API no Guia de gerenciamento do Amazon Redshift.

Como se conectar a um cluster do Amazon Redshift
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Amazon Athena.

  10. Escolha Amazon Redshift.

  11. Escolha Credenciais temporárias (IAM) para Tipo.

  12. Insira um Nome de conexão. Isso é um nome usado pelo Data Wrangler para identificar esta conexão.

  13. Insira o Identificador de cluster para especificar a qual cluster você deseja se conectar. Observação: insira somente o identificador do cluster e não o endpoint completo do cluster do Amazon Redshift.

  14. Insira o Nome do banco de dados do banco de dados ao qual deseja se conectar.

  15. Insira um Usuário do banco de dados para identificar o usuário que você deseja usar para se conectar ao banco de dados.

  16. Em UNLOADIAMRole, insira a IAM função ARN que o cluster do Amazon Redshift deve assumir para mover e gravar dados no Amazon S3. Para obter mais informações sobre essa função, consulte Autorizando o Amazon Redshift a acessar outras AWS serviços em seu nome no Guia de gerenciamento do Amazon Redshift.

  17. Selecione Conectar.

  18. (Opcional) Para o local de saída do Amazon S3, especifique o S3 URI para armazenar os resultados da consulta.

  19. (Opcional) Para ID da KMS chave, especifique o ARN do AWS KMS chave ou alias. A imagem a seguir mostra onde você pode encontrar qualquer chave no AWS Management Console.

    A localização do AWS KMS aliasARN, nome do alias e chave ARN no AWS KMS console.

A imagem a seguir mostra todos os campos do procedimento anterior.

O painel de conexão Adicionar Amazon Redshift.

Depois que sua conexão for estabelecida com sucesso, ela aparecerá como uma fonte de dados em Importação de dados. Selecione essa fonte de dados para consultar seu banco de dados e importar dados.

Para consultar e importar dados do Amazon Redshift:
  1. Selecione a conexão que você deseja consultar nas Fontes de dados.

  2. Selecione um Esquema. Para saber mais sobre esquemas do Amazon Redshift, consulte Esquemas no Guia do desenvolvedor de banco de dados do Amazon Redshift.

  3. (Opcional) Em Configuração avançada, especifique o método de Amostragem que você gostaria de usar.

  4. Digite sua consulta no editor de consultas e escolha Executar para executar a consulta. Após uma consulta bem-sucedida, você pode visualizar seu resultado abaixo do editor.

  5. Selecione Importar conjunto de dados para importar o conjunto de dados que foi consultado.

  6. Insira um nome de conjunto de dados. Se você adicionar um Nome de conjunto de dados que contém espaços, esses espaços serão substituídos por underscores quando o conjunto de dados for importado.

  7. Escolha Adicionar.

Para editar um conjunto de dados, siga os seguintes passos.

  1. Navegue até o fluxo do Data Wrangler.

  2. Escolha o + ao lado de Fonte - Amostragem.

  3. Alterar os dados que você está importando.

  4. Escolha Aplicar

Importar dados da Amazon EMR

Você pode usar a Amazon EMR como fonte de dados para seu fluxo do Amazon SageMaker Data Wrangler. EMRA Amazon é uma plataforma de cluster gerenciada que você pode usar para processar e analisar grandes quantidades de dados. Para obter mais informações sobre a AmazonEMR, consulte O que é a AmazonEMR? . Para importar um conjunto de dadosEMR, você se conecta a ele e o consulta.

Importante

Você deve atender aos seguintes pré-requisitos para se conectar a um cluster da Amazon: EMR

Pré-requisitos
  • Configurações de rede
    • Você tem uma Amazon VPC na região que está usando para lançar o Amazon SageMaker Studio Classic e a AmazonEMR.

    • Tanto o Amazon EMR quanto o Amazon SageMaker Studio Classic devem ser lançados em sub-redes privadas. Podem estar na mesma sub-rede ou em sub-redes diferentes.

    • O Amazon SageMaker Studio Classic deve estar no modo VPC somente ativo.

      Para obter mais informações sobre como criar umVPC, consulte Criar um VPC.

      Para obter mais informações sobre como criar umVPC, consulte Connect SageMaker Studio Classic Notebooks in VPC a to External Resources.

    • Os EMR clusters da Amazon que você está executando devem estar na mesma AmazonVPC.

    • Os EMR clusters da Amazon e a Amazon VPC devem estar no mesmo AWS conta.

    • Seus EMR clusters da Amazon estão executando o Hive ou o Presto.

      • Os clusters do Hive devem permitir o tráfego de entrada dos grupos de segurança do Studio Classic na porta 10000.

      • Os clusters do Presto devem permitir tráfego de entrada dos grupos de segurança do Studio Classic na porta 8889.

        nota

        O número da porta é diferente para EMR clusters da Amazon que usam IAM funções. Navegue até o final da seção de pré-requisitos para obter mais informações.

  • SageMaker Estúdio clássico
    • O Amazon SageMaker Studio Classic deve executar o Jupyter Lab versão 3. Para obter informações sobre como atualizar a versão do Jupyter Lab, consulte Visualize e atualize a JupyterLab versão de um aplicativo a partir do console.

    • O Amazon SageMaker Studio Classic tem uma IAM função que controla o acesso do usuário. A IAM função padrão que você está usando para executar o Amazon SageMaker Studio Classic não tem políticas que possam lhe dar acesso aos EMR clusters da Amazon. Você deve anexar a política que concede permissões à IAM função. Para obter mais informações, consulte Configurar a listagem de EMR clusters da Amazon.

    • A IAM função também deve ter a seguinte política anexadasecretsmanager:PutResourcePolicy.

    • Se você estiver usando um domínio do Studio Classic que você já criou, verifique se ele AppNetworkAccessType está no modo VPC somente. Para obter informações sobre como atualizar um domínio para usar o modo VPC -only, consulteDesligue e atualize o SageMaker Studio Classic.

  • EMRClusters da Amazon
    • Você deve ter o Hive ou o Presto instalados em seu cluster.

    • A EMR versão da Amazon deve ser a versão 5.5.0 ou posterior.

      nota

      A Amazon EMR oferece suporte à terminação automática. A terminação automática impede a execução de clusters ociosos e evita que você incorra em custos. A seguir estão as versões que suportam a terminação automática:

      • Para versões 6.x, versão 6.1.0 ou posterior.

      • Para versões 5.x, versão 5.30.0 ou posterior.

  • EMRClusters da Amazon usando funções IAM de tempo de execução

Uma Amazon VPC é uma rede virtual que está logicamente isolada de outras redes no AWS nuvem. O Amazon SageMaker Studio Classic e seu EMR cluster da Amazon só existem dentro da AmazonVPC.

Use o procedimento a seguir para iniciar o Amazon SageMaker Studio Classic em uma AmazonVPC.

Para iniciar o Studio Classic em umVPC, faça o seguinte.

  1. Navegue até o SageMaker console em https://console.aws.amazon.com/sagemaker/.

  2. Escolha Launch SageMaker Studio Classic.

  3. Escolha Configuração padrão.

  4. Em Função de execução padrão, escolha a IAM função para configurar o Studio Classic.

  5. Escolha VPC onde você lançou os EMR clusters da Amazon.

  6. Em Sub-rede, escolha a sub-rede privada.

  7. Para grupos de segurança, especifique os grupos de segurança que você está usando para controlar entre seusVPC.

  8. Escolha VPCSomente.

  9. (Optional) AWS usa uma chave de criptografia padrão. Você pode especificar um AWS Key Management Service chave para criptografar seus dados.

  10. Escolha Próximo.

  11. Em Configurações do Studio, selecione as configurações mais adequadas para suas necessidades.

  12. Escolha Avançar para pular as configurações do SageMaker Canvas.

  13. Escolha Avançar para ignorar as RStudio configurações.

Se você não tiver um EMR cluster da Amazon pronto, você pode usar o procedimento a seguir para criar um. Para obter mais informações sobre a AmazonEMR, consulte O que é a AmazonEMR?

Para criar um cluster, siga os seguintes passos.

  1. Navegue até o AWS Management Console.

  2. Na barra de pesquisa, especifique Amazon EMR.

  3. Selecione Criar cluster.

  4. Em Nome do cluster, especifique o nome do seu cluster.

  5. Em Lançar, selecione a versão de lançamento do cluster.

    nota

    A Amazon EMR oferece suporte à terminação automática para os seguintes lançamentos:

    • Para versões 6.x, versão 6.1.0 ou posterior.

    • Para versões 5.x, versão 5.30.0 ou posterior.

    A terminação automática impede a execução de clusters ociosos e evita que você incorra em custos.

  6. (Opcional) Para Aplicativos, escolha Presto.

  7. Escolha o aplicativo que você está executando no cluster.

  8. Em Redes, para Configuração de hardware, especifique as configurações de hardware.

    Importante

    Em Rede, escolha a VPC que está executando o Amazon SageMaker Studio Classic e escolha uma sub-rede privada.

  9. Em Segurança e acesso, especifique as configurações de segurança.

  10. Escolha Criar.

Para ver um tutorial sobre a criação de um EMR cluster da Amazon, consulte Introdução à Amazon EMR. Para obter informações sobre as melhores práticas para configurar um cluster, consulte Considerações e melhores práticas.

nota

Para as melhores práticas de segurança, o Data Wrangler só pode se conectar VPCs em sub-redes privadas. Você não pode se conectar ao nó principal, a menos que use AWS Systems Manager para suas EMR instâncias da Amazon. Para obter mais informações, consulte Protegendo o acesso aos EMR clusters usando AWS Systems Manager.

Atualmente, você pode usar os seguintes métodos para acessar um EMR cluster da Amazon:

  • Sem autenticação

  • Protocolo leve de acesso a diretórios (LDAP)

  • IAM(Função de tempo de execução)

Não usar ou não usar a autenticação LDAP pode exigir que você crie vários clusters e perfis de EC2 instância da Amazon. Se você for um administrador, talvez seja necessário fornecer a grupos de usuários diferentes níveis de acesso aos dados. Esses métodos podem resultar em sobrecarga administrativa que dificulta o gerenciamento de seus usuários.

Recomendamos usar uma função IAM de tempo de execução que ofereça a vários usuários a capacidade de se conectar ao mesmo EMR cluster da Amazon. Uma função de tempo de execução é uma IAM função que você pode atribuir a um usuário que está se conectando a um EMR cluster da Amazon. Você pode configurar a IAM função de tempo de execução para ter permissões específicas para cada grupo de usuários.

Use as seções a seguir para criar um EMR cluster Amazon Presto ou Hive com LDAP ativado.

Presto
Importante

Para usar AWS Glue como metastore para tabelas do Presto, selecione Usar para metadados da tabela Presto para armazenar os resultados de suas consultas da Amazon em um EMR AWS Glue catálogo de dados quando você está lançando um EMR cluster. Armazenar os resultados da consulta em um AWS Glue o catálogo de dados pode evitar que você incorra em cobranças.

Para consultar grandes conjuntos de dados em EMR clusters da Amazon, você deve adicionar as seguintes propriedades ao arquivo de configuração do Presto em seus clusters da AmazonEMR:

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Você também pode modificar as definições de configuração ao iniciar o EMR cluster da Amazon.

O arquivo de configuração do seu EMR cluster Amazon está localizado no seguinte caminho:/etc/presto/conf/config.properties.

Use o procedimento a seguir para criar um cluster do Presto com LDAP ativado.

Para criar um cluster, siga os seguintes passos.

  1. Navegue até o AWS Management Console.

  2. Na barra de pesquisa, especifique Amazon EMR.

  3. Selecione Criar cluster.

  4. Em Nome do cluster, especifique o nome do seu cluster.

  5. Em Lançar, selecione a versão de lançamento do cluster.

    nota

    A Amazon EMR oferece suporte à terminação automática para os seguintes lançamentos:

    • Para versões 6.x, versão 6.1.0 ou posterior.

    • Para versões 5.x, versão 5.30.0 ou posterior.

    A terminação automático impede a execução de clusters ociosos e evita que você incorra em custos.

  6. Escolha o aplicativo que você está executando no cluster.

  7. Em Redes, para Configuração de hardware, especifique as configurações de hardware.

    Importante

    Em Rede, escolha a VPC que está executando o Amazon SageMaker Studio Classic e escolha uma sub-rede privada.

  8. Em Segurança e acesso, especifique as configurações de segurança.

  9. Escolha Criar.

Hive
Importante

Para usar AWS Glue como metastore para tabelas do Hive, selecione Use for Hive table metadata para armazenar os resultados de suas consultas da Amazon em um EMR AWS Glue catálogo de dados quando você está lançando um EMR cluster. Armazenar os resultados da consulta em um AWS Glue o catálogo de dados pode evitar que você incorra em cobranças.

Para poder consultar grandes conjuntos de dados em EMR clusters da Amazon, adicione as seguintes propriedades ao arquivo de configuração do Hive em seus clusters da AmazonEMR:

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Você também pode modificar as definições de configuração ao iniciar o EMR cluster da Amazon.

O arquivo de configuração do seu EMR cluster Amazon está localizado no seguinte caminho:/etc/hive/conf/hive-site.xml. Você pode especificar a seguinte propriedade e reiniciar o cluster:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Use o procedimento a seguir para criar um cluster do Hive com LDAP ativado.

Para criar um cluster do Hive com LDAP ativado, faça o seguinte.

  1. Navegue até o AWS Management Console.

  2. Na barra de pesquisa, especifique Amazon EMR.

  3. Selecione Criar cluster.

  4. Escolha Go to advanced options (Ir para opções avançadas).

  5. Para Release, selecione uma versão de EMR lançamento da Amazon.

  6. A opção de configuração do Hive é selecionada por padrão. Certifique-se de que a opção Hive tenha uma caixa de seleção ao lado dela.

  7. (Opcional) Você também pode selecionar o Presto como uma opção de configuração para ativar o Hive e o Presto em seu cluster.

  8. (Opcional) Selecione Usar para metadados da tabela Hive para armazenar os resultados de EMR suas consultas da Amazon em um AWS Glue catálogo de dados. Armazenar os resultados da consulta em um AWS Glue O catálogo pode evitar que você incorra em cobranças. Para obter mais informações, consulte Usando o AWS Glue Catálogo de dados como metastore para o Hive.

    nota

    Armazenar os resultados da consulta em um catálogo de dados requer a EMR versão 5.8.0 ou posterior da Amazon.

  9. Em Inserir configuração, especifique o seguinteJSON:

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    nota

    Como prática recomendada de segurança, recomendamos SSL HiveServer habilitá-lo adicionando algumas propriedades no JSON hive-site anterior. Para obter mais informações, consulte Habilitar SSL em HiveServer 2.

  10. Especifique as configurações restantes do cluster e crie um cluster.

Use as seções a seguir para usar a LDAP autenticação para EMR clusters da Amazon que você já criou.

LDAP for Presto

O uso LDAP em um cluster executando o Presto requer acesso ao coordenador do Presto por meio de. HTTPS Faça o seguinte para fornecer acesso:

  • Ative o acesso na porta 636

  • Habilitar SSL para o coordenador do Presto

Use o modelo a seguir para configurar o Presto:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Para obter informações sobre a configuração LDAP no Presto, consulte os seguintes recursos:

nota

Como prática recomendada de segurança, recomendamos habilitar SSL o Presto. Para obter mais informações, consulte Comunicação interna segura.

LDAP for Hive

LDAPPara usar o Hive em um cluster que você criou, use o procedimento a seguir: Reconfigure um grupo de instâncias no console.

Você está especificando o nome do cluster ao qual está se conectando.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Use o procedimento a seguir para importar dados de um cluster.

Para importar dados de um cluster, siga os seguintes passos.

  1. Abra um fluxo do Data Wrangler.

  2. Selecione Create Connection (Criar conexão).

  3. Escolha Amazon EMR.

  4. Faça uma das coisas a seguir.

    • (Opcional) ARN Em Segredos, especifique o Amazon Resource Number (ARN) do banco de dados dentro do cluster. Os segredos fornecem segurança adicional. Para obter mais informações sobre segredos, consulte O que é AWS Secrets Manager? Para obter informações sobre como criar um segredo para seu cluster, consulteCriando um AWS Secrets Manager segredo para seu cluster.

      Importante

      Você deve especificar um segredo se estiver usando uma função IAM de tempo de execução para autenticação.

    • Na tabela suspensa, escolha um cluster.

  5. Escolha Próximo.

  6. Para Selecione um endpoint para example-cluster-name cluster, escolha um mecanismo de consulta.

  7. (Opcional) Selecione Salvar conexão.

  8. Escolha Avançar, selecione login e escolha uma das seguintes regras:

    • Sem autenticação

    • LDAP

    • IAM

  9. Para fazer login em example-cluster-name cluster, especifique o nome de usuário e a senha do cluster.

  10. Selecione Conectar.

  11. No editor de consultas, especifique uma SQL consulta.

  12. Escolha Executar.

  13. Escolha Importar.

Criando um AWS Secrets Manager segredo para seu cluster

Se você estiver usando uma função IAM de tempo de execução para acessar seu EMR cluster da Amazon, deverá armazenar as credenciais que está usando para acessar a Amazon EMR como um segredo do Secrets Manager. Você armazena todas as credenciais que usa para acessar o cluster dentro do segredo.

Você deve armazenar as seguintes informações em segredo:

  • JDBCponto final — jdbc:hive2://

  • DNSname — O DNS nome do seu EMR cluster da Amazon. É o endpoint do nó primário ou o nome do host.

  • Porta - 8446

Você também pode armazenar as seguintes informações adicionais dentro do segredo:

  • IAMrole — A IAM função que você está usando para acessar o cluster. O Data Wrangler usa sua função de SageMaker execução por padrão.

  • Caminho do armazenamento confiável — Por padrão, o Data Wrangler cria um caminho do armazenamento confiável para você. Também é possível usar seu próprio caminho de armazenamento de confiança. Para obter mais informações sobre caminhos de armazenamento confiável, consulte Criptografia em trânsito em 2. HiveServer

  • Senha do Truststore — Por padrão, o Data Wrangler cria uma senha do Truststore para você. Também é possível usar seu próprio caminho de armazenamento de confiança. Para obter mais informações sobre caminhos de armazenamento confiável, consulte Criptografia em trânsito em 2. HiveServer

Use o procedimento a seguir para armazenar as credenciais em um segredo do Secrets Manager.

Para armazenar suas credenciais como um segredo, siga os seguintes passos.

  1. Navegue até o AWS Management Console.

  2. Na barra de pesquisa, especifique Secrets Manager.

  3. Escolha AWS Secrets Manager.

  4. Selecione Armazenar um novo segredo.

  5. Em Secret type (Tipo de segredo), escolha Other type of secret (Outro tipo de segredo).

  6. Em pares de chave/valor, selecione Texto sem formatação.

  7. Para clusters que executam o Hive, você pode usar o modelo a seguir para IAM autenticação.

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    nota

    Depois de importar seus dados, você aplica transformações a eles. Em seguida, você exporta os dados que transformou para um local específico. Se você estiver utilizando um caderno Jupyter para exportar seus dados transformados para o Amazon S3, é necessário usar o caminho do truststore especificado no exemplo anterior.

Um segredo do Secrets Manager armazena o EMR cluster JDBC URL da Amazon como um segredo. Usar um segredo é mais seguro do que inserir diretamente suas credenciais.

Use o procedimento a seguir para armazenar o JDBC URL como segredo.

Para armazenar o JDBC URL como segredo, faça o seguinte.

  1. Navegue até o AWS Management Console.

  2. Na barra de pesquisa, especifique Secrets Manager.

  3. Escolha AWS Secrets Manager.

  4. Selecione Armazenar um novo segredo.

  5. Em Secret type (Tipo de segredo), escolha Other type of secret (Outro tipo de segredo).

  6. Para pares chave/valor, especifique jdbcURL como chave e um válido JDBC URL como valor.

    O formato de um válido JDBC URL depende do uso da autenticação e do uso do Hive ou do Presto como mecanismo de consulta. A lista a seguir mostra os JBDC URL formatos válidos para as diferentes configurações possíveis.

    • Hive, sem autenticação - jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP autenticação — jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Para o Hive com SSL ativado, o JDBC URL formato depende se você usa um arquivo Java Keystore para a TLS configuração. O Java Keystore File ajuda a verificar a identidade do nó principal do EMR cluster da Amazon. Para usar um arquivo Java Keystore, gere-o em um EMR cluster e carregue-o no Data Wrangler. Para gerar um arquivo, use o seguinte comando no EMR cluster da Amazon,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Para obter informações sobre a execução de comandos em um EMR cluster da Amazon, consulte Protegendo o acesso aos EMR clusters usando AWS Systems Manager. Para carregar um arquivo, escolha a seta para cima na navegação à esquerda da interface do usuário do Data Wrangler.

      A seguir estão os JDBC URL formatos válidos para o Hive com SSL ativado:

      • Sem um arquivo Java Keystore — jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Com um arquivo Java Keystore — jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Pronto, sem autenticação — jdbc:presto://emr-cluster-master-public-dns: 889/8;

    • Para o Presto com LDAP autenticação e SSL habilitado, o JDBC URL formato depende se você usa um arquivo Java Keystore para a TLS configuração. O Java Keystore File ajuda a verificar a identidade do nó principal do EMR cluster da Amazon. Para usar um arquivo Java Keystore, gere-o em um EMR cluster e carregue-o no Data Wrangler. Para carregar um arquivo, escolha a seta para cima na navegação à esquerda da interface do usuário do Data Wrangler. Para obter informações sobre como criar um arquivo de armazenamento de chaves Java para o Presto, consulte Arquivo de armazenamento de chaves Java para. TLS Para obter informações sobre a execução de comandos em um EMR cluster da Amazon, consulte Protegendo o acesso aos EMR clusters usando AWS Systems Manager.

      • Sem um arquivo Java Keystore — jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Com um arquivo Java Keystore — jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Durante todo o processo de importação de dados de um EMR cluster da Amazon, você pode ter problemas. Para obter informações sobre resolução de problemas, consulte Solução de problemas com a Amazon EMR.

Importar dados do Databricks () JDBC

Você pode usar o Databricks como fonte de dados para seu fluxo do Amazon SageMaker Data Wrangler. Para importar um conjunto de dados do Databricks, use a funcionalidade de importação JDBC (Java Database Connectivity) para acessar seu banco de dados do Databricks. Depois de acessar o banco de dados, especifique uma SQL consulta para obter os dados e importá-los.

Presumimos que você tenha um cluster do Databricks em execução e que tenha configurado seu JDBC driver para ele. Para mais informações, consulte as seguintes páginas de documentação do Databricks:

O Data Wrangler armazena seu em JDBC URL AWS Secrets Manager. Você deve conceder à sua função de IAM execução do Amazon SageMaker Studio Classic permissões para usar o Secrets Manager. Use o seguinte procedimento para conceder permissões.

Para conceder permissões ao Secrets Manager, siga os seguintes passos.

  1. Faça login no AWS Management Console e abra o IAM console em https://console.aws.amazon.com/iam/.

  2. Escolha Perfis.

  3. Na barra de pesquisa, especifique a função de SageMaker execução da Amazon que o Amazon SageMaker Studio Classic está usando.

  4. Selecione o perfil de .

  5. Escolha Add permissions (Adicionar permissões).

  6. Escolha Criar política em linha.

  7. Para Serviço, especifique Secrets Manager e escolha-o.

  8. Em Ações, selecione o ícone de seta ao lado de Gerenciamento de permissões.

  9. Escolha PutResourcePolicy.

  10. Em Recursos, selecione Específico.

  11. Escolha a caixa de seleção ao lado de Qualquer nesta conta.

  12. Escolha Revisar política.

  13. Em Nome, especifique um nome.

  14. Escolha Criar política.

Você pode usar partições para importar seus dados mais rapidamente. As partições dão ao Data Wrangler a capacidade de processar os dados em paralelo. Por padrão, o Data Wrangler usa 2 partições. Para a maioria dos casos de uso, duas partições oferecem velocidades de processamento de dados quase ideais.

Se você optar por especificar mais de duas partições, também poderá especificar uma coluna para particionar os dados. O tipo dos valores na coluna deve ser numérico ou de data.

Recomendamos usar partições somente se você entender a estrutura dos dados e como eles são processados.

Você pode importar o conjunto de dados inteiro ou fazer uma amostra de uma parte dele. Para um banco de dados Databricks, ele fornece as seguintes opções de amostragem:

  • Nenhum — Importar todo o conjunto de dados.

  • Primeiro K — Fazer uma amostra das primeiras K linhas do conjunto de dados, em que K é um número inteiro que você especifica.

  • Aleatório - obtém uma amostra aleatória de um tamanho especificado por você.

  • Estratificado - obtém uma amostra aleatória estratificada. Uma amostra estratificada preserva proporção de valores em uma coluna.

Use o procedimento a seguir para importar seus dados de um banco de dados do Databricks.

Para importar dados do Databricks, siga os seguintes passos.

  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Na guia Importar dados do seu fluxo do Data Wrangler, escolha Databricks.

  6. Especifique os seguintes campos:

    • Nome do conjunto de dados — Um nome que você deseja usar para o conjunto de dados em seu fluxo do Data Wrangler.

    • Drivercom.simba.spark.jdbc.Driver.

    • JDBCURL— O do banco URL de dados Databricks. A URL formatação pode variar entre as instâncias do Databricks. Para obter informações sobre como encontrar URL e especificar os parâmetros dentro dele, consulte parâmetros de JDBC configuração e conexão. Veja a seguir um exemplo de como a URL pode ser formatado: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; =http; ssl=1; =sql/protocolv1/o/3122619508517275/0909-200301-cut318; =3; = transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      nota

      Você pode especificar um segredo ARN que contenha o JDBC URL em vez de especificar o JDBC URL próprio. O segredo deve conter um par de valores-chave com o seguinte formato: jdbcURL:JDBC-URL. Para obter mais informações, consulte O que é o Secrets Manager?

  7. Especifique uma SQL SELECT declaração.

    nota

    O Data Wrangler não oferece suporte a expressões de tabela comuns (CTE) ou tabelas temporárias em uma consulta.

  8. Para Amostragem, escolha um método de amostragem.

  9. Escolha Executar.

  10. (Opcional) Para o PREVIEW, escolha a engrenagem para abrir as configurações de partição.

    1. Especifique o número de partições. Você pode particionar por coluna se especificar o número de partições:

      • Insira o número de partições — Especifique um valor maior que 2.

      • (Opcional) Partição por coluna — Especifique os seguintes campos. Você só pode particionar por uma coluna se tiver especificado um valor para Inserir número de partições.

        • Selecionar coluna — Selecione a coluna que você está usando para a partição de dados. O tipo de dados da coluna deve ser numérico ou de data.

        • Limite superior — Dos valores na coluna que você especificou, o limite superior é o valor que você está usando na partição. O valor que você especifica não altera os dados que você está importando. Isso afeta apenas a velocidade da importação. Para obter o melhor desempenho, especifique um limite superior próximo do máximo da coluna.

        • Limite inferior — Dos valores na coluna que você especificou, o limite inferior é o valor que você está usando na partição. O valor que você especifica não altera os dados que você está importando. Isso afeta apenas a velocidade da importação. Para obter o melhor desempenho, especifique um limite inferior próximo ao mínimo da coluna.

  11. Escolha Importar.

Importar dados do Salesforce Data Cloud

Você pode usar o Salesforce Data Cloud como fonte de dados no Amazon Data Wrangler para preparar SageMaker os dados em seu Salesforce Data Cloud para aprendizado de máquina.

Com o Salesforce Data Cloud como fonte de dados no Data Wrangler, você pode conectar-se rapidamente aos dados do Salesforce sem escrever uma única linha de código. Você pode unir seus dados do Salesforce com dados de qualquer outra fonte de dados no Data Wrangler.

Depois de se conectar à nuvem de dados, você pode fazer o seguinte:

  • Visualize seus dados com visualizações integradas

  • Entenda os dados e identifique possíveis erros e valores extremos

  • Dados da transformação com mais de 300 transformações integradas

  • Exporte os dados que você transformou

Configuração do administrador

Importante

Antes de começar, certifique-se de que seus usuários estejam executando a versão 1.3.0 ou posterior do Amazon SageMaker Studio Classic. Para obter informações sobre como verificar a versão do Studio Classic e atualizá-la, consultePrepare dados de ML com o Amazon SageMaker Data Wrangler.

Ao configurar o acesso ao Salesforce Data Cloud, você deve concluir as seguintes tarefas:

  • Obtendo seu domínio do Salesforce. URL A Salesforce também se refere ao domínio URL como o da sua organização. URL

  • Obter OAuth credenciais da Salesforce.

  • Obter a autorização URL e o token URL para seu domínio do Salesforce.

  • Criando um AWS Secrets Manager segredo com a OAuth configuração.

  • Criar uma configuração de duração que o Data Wrangler usa para ler as credenciais do segredo.

  • Conceder ao Data Wrangler permissões para ler o segredo.

Depois de realizar as tarefas anteriores, seus usuários podem fazer login no Salesforce Data Cloud usando. OAuth

nota

Seus usuários podem ter problemas depois de configurar tudo. Para obter informações sobre resolução de problemas, consulte Solução de problemas com o Salesforce.

Use o procedimento a seguir para obter o domínioURL.

  1. Navegue até a página de login do Salesforce.

  2. Em Busca rápida, especifique Meu domínio.

  3. Copie o valor de Current My Domain URL para um arquivo de texto.

  4. Adicione https:// ao início doURL.

Depois de obter o domínio do SalesforceURL, você pode usar o procedimento a seguir para obter as credenciais de login do Salesforce e permitir que o Data Wrangler acesse seus dados do Salesforce.

Para obter as credenciais de login do Salesforce e fornecer acesso ao Data Wrangler, siga os seguintes passos.

  1. Navegue até seu domínio do Salesforce URL e faça login em sua conta.

  2. Escolha o ícone de engrenagem.

  3. Na barra de pesquisa exibida, especifique Gerenciador de aplicativo.

  4. Selecione Novo aplicativo conectado.

  5. Especifique os seguintes campos:

    • Nome do aplicativo conectado — Você pode especificar qualquer nome, mas recomendamos escolher um nome que inclua Data Wrangler. Por exemplo, você pode especificar a integração do Salesforce Data Cloud Data Wrangler.

    • APInome — Use o valor padrão.

    • E-mail de contato — Especifique seu endereço de e-mail.

    • No APItítulo (Ativar OAuth configurações), marque a caixa de seleção para ativar OAuth as configurações.

    • Para Callback, URL especifique o Amazon SageMaker Studio ClassicURL. Para obter o URL Studio Classic, acesse-o no AWS Management Console e copie URL o.

  6. Em OAuthEscopos selecionados, mova o seguinte dos Escopos disponíveis para OAuth Escopos selecionados OAuth:

    • Gerencie os dados do usuário via APIs (api)

    • Execute solicitações a qualquer momento (refresh_token, offline_access)

    • Realizar ANSI SQL consultas nos dados do Salesforce Data Cloud () cdp_query_api

    • Gerenciar dados de perfil da Salesforce Customer Data Platform (cdp_profile_api)

  7. Escolha Salvar. Depois de salvar suas alterações, o Salesforce abre uma nova página.

  8. Escolha Continue

  9. Navegue até Chave e segredo do consumidor.

  10. Escolha Gerenciar detalhes do consumidor. O Salesforce redireciona você para uma nova página na qual talvez você precise passar pela autenticação de dois fatores.

  11. Importante

    Copie a chave do consumidor e o segredo do consumidor em um editor de texto. Você precisa dessas informações para conectar a nuvem de dados ao Data Wrangler.

  12. Navegue de volta para Gerenciar aplicativos conectados.

  13. Navegue até Nome do aplicativo conectado e o nome do seu aplicativo.

  14. Escolha Gerenciar.

    1. Selecione Editar políticas.

    2. Altere o Relaxamento de IP para relaxar as restrições de IP.

    3. Escolha Salvar.

Depois de fornecer acesso à sua Salesforce Data Cloud, você precisa fornecer permissões para seus usuários. Siga o procedimento abaixo para fornecer permissões.

Para fornecer permissões aos seus usuários, siga os seguintes passos.

  1. Navegue até a página inicial de configuração.

  2. Na navegação à esquerda, pesquise Usuários e escolha o item de menu Usuários.

  3. Escolha o hiperlink com seu nome de usuário.

  4. Navegue até Atribuições do conjunto de permissões.

  5. Escolha Editar exercícios.

  6. Adicione as seguintes permissões:

    • Administrador da plataforma de dados do cliente

    • Especialista em reconhecimento de dados da plataforma de dados do cliente

  7. Escolha Salvar.

Depois de obter as informações do seu domínio do Salesforce, você deve obter a autorização URL e o token URL para o AWS Secrets Manager segredo que você está criando.

Use o procedimento a seguir para obter a autorização URL e o tokenURL.

Para obter a autorização URL e o token URL
  1. Navegue até seu domínio do Salesforce. URL

  2. Use um dos métodos a seguir para obter URLs o. Se você estiver em uma distribuição Linux com curl e jq instalada, recomendamos usar o método que só funciona no Linux.

    • (Somente Linux) Especifique o seguinte comando em seu terminal.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Navegue até example-org-URL/.well-known/openid-configuration no seu navegador.

      2. Copie o authorization_endpoint e token_endpoint para um editor de texto.

      3. Crie o seguinte JSON objeto:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Depois de criar o objeto OAuth de configuração, você pode criar um AWS Secrets Manager segredo que o armazena. Use o procedimento a seguir para criar o segredo.

Para criar um segredo, siga os seguintes passos.

  1. Navegue até o .AWS Secrets Manager console.

  2. Selecione Armazenar um segredo.

  3. Selecione Outro tipo de segredo.

  4. Em Pares de chave/valor, selecione Texto simples.

  5. Substitua JSON o vazio pelas seguintes configurações.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Escolha Próximo.

  7. Em Nome secreto, especifique o nome do segredo.

  8. Em Abas, escolha Adicionar.

    1. Para a Chave, especifique sagemaker:partner. Para Value, recomendamos especificar um valor que possa ser útil para seu caso de uso. Porém, você não pode especificar qualquer coisa.

    Importante

    Você deve criar a chave. Você não pode importar seus dados do Salesforce se não os criar.

  9. Escolha Próximo.

  10. Escolha Armazenar.

  11. Escolha o segredo que você criou.

  12. Anote sobre os seguintes campos:

    • O número de recurso da Amazon (ARN) do segredo

    • O nome do segredo

Depois de criar o segredo, você deverá adicionar permissões para que o Data Wrangler leia o segredo. Use o seguinte procedimento para adicionar permissões.

Para adicionar permissões de leitura ao Data Wrangler, siga os seguintes passos.

  1. Navegue até o SageMaker console da Amazon.

  2. Escolha domínios.

  3. Escolha o domínio que você está usando para acessar o Data Wrangler.

  4. Escolha seu Perfil de usuário.

  5. Em Detalhes, encontre a Função de execução. ARNEstá no seguinte formato:arn:aws:iam::111122223333:role/example-role. Anote a função de SageMaker execução. Dentro doARN, é tudo o que vem depoisrole/.

  6. Navegue até o console do IAM.

  7. Na barra de IAM pesquisa Pesquisar, especifique o nome da função de SageMaker execução.

  8. Selecione o perfil de .

  9. Escolha Add permissions (Adicionar permissões).

  10. Escolha Criar política em linha.

  11. Escolha a JSON guia.

  12. Especifique a política a seguir no editor.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Escolha Revisar política.

  14. Em Nome, especifique um nome.

  15. Escolha Criar política.

Depois de conceder permissões ao Data Wrangler para ler o segredo, você deve adicionar uma configuração de ciclo de vida que usa seu segredo do Secrets Manager ao seu perfil de usuário do Amazon SageMaker Studio Classic.

Use o procedimento a seguir para criar uma configuração de ciclo de vida e adicioná-la ao perfil do Studio Classic.

Para criar uma configuração de ciclo de vida e adicioná-la ao perfil do Studio Classic, faça o seguinte.

  1. Navegue até o SageMaker console da Amazon.

  2. Escolha domínios.

  3. Escolha o domínio que você está usando para acessar o Data Wrangler.

  4. Escolha seu Perfil de usuário.

  5. Se você ver os seguintes aplicativos, exclua-os:

    • KernelGateway

    • JupyterKernel

    nota

    A exclusão dos aplicativos atualiza o Studio Classic. Pode demorar um pouco para que as atualizações aconteçam.

  6. Enquanto você espera que as atualizações aconteçam, escolha as configurações do duração.

  7. Verifique se a página em que você está diz configurações do ciclo de vida do Studio Classic.

  8. Escolha Criar configuração.

  9. Certifique-se de que o aplicativo do servidor Jupyter tenha sido selecionado.

  10. Escolha Próximo.

  11. Em Nome, especifique um nome para a configuração.

  12. Para Scripts, especifique o seguinte script:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Selecione Enviar.

  14. Na navegação à esquerda, escolha domínios.

  15. Escolha o seu domínio.

  16. Escolha Ambiente.

  17. Em Configurações de ciclo de vida para aplicativos pessoais do Studio Classic, escolha Anexar.

  18. Selecione Configuração existente.

  19. Em Configurações do ciclo de vida do Studio Classic, selecione a configuração do ciclo de vida que você criou.

  20. Escolha Anexar ao domínio.

  21. Marque a caixa de seleção ao lado da configuração de duração que você anexou.

  22. Selecione Definir como padrão.

Você pode encontrar problemas ao configurar sua configuração de ciclo de duração. Para obter informações sobre como depurá-los, consulte Configuração de depuração do ciclo de vida.

Guia do cientista de dados

Use o seguinte para conectar o Salesforce Data Cloud e acessar seus dados no Data Wrangler.

Importante

Seu administrador precisa usar as informações nas seções anteriores para configurar o Salesforce Data Cloud. Se você estiver enfrentando problemas, entre em contato com eles para obter ajuda na solução de problemas.

Para abrir o Studio Classic e verificar sua versão, consulte o procedimento a seguir.

  1. Use as etapas Pré-requisitos para acessar o Data Wrangler por meio do Amazon SageMaker Studio Classic.

  2. Ao lado do usuário que você deseja usar para iniciar o Studio Classic, selecione Iniciar aplicativo.

  3. Escolha Studio.

Para criar um conjunto de dados no Data Wrangler com dados do Salesforce Data Cloud
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Salesforce Data Cloud.

  10. Em Nome da conexão, especifique um nome para sua conexão com o Salesforce Data Cloud.

  11. Para Org URL, especifique a organização URL em sua conta do Salesforce. Você pode obtê-los URL de seus administradores.

  12. Selecione Conectar.

  13. Especifique suas credenciais para fazer login no Salesforce.

Você pode começar a criar um conjunto de dados usando dados do Salesforce Data Cloud depois de se conectar a ele.

Depois de selecionar uma tabela, você pode escrever consultas e executá-las. A saída da sua consulta é exibida em Resultados da consulta.

Depois de definir a saída da sua consulta, você poderá importar a saída da sua consulta para um fluxo do Data Wrangler para realizar transformações de dados.

Depois de criar um conjunto de dados, navegue até a tela de Fluxo de dados para começar a transformar seus dados.

Importar dados do Snowflake

Você pode usar o Snowflake como fonte de dados no Data Wrangler para preparar SageMaker dados no Snowflake para aprendizado de máquina.

Com o Snowflake como fonte de dados no Data Wrangler, você pode conectar-se rapidamente ao Snowflake sem escrever uma única linha de código. Você pode unir seus dados no Snowflake com dados de qualquer outra fonte de dados no Data Wrangler.

Uma vez conectado, você pode consultar interativamente os dados armazenados no Snowflake, transformar dados com mais de 300 transformações de dados pré-configuradas, entender os dados e identificar possíveis erros e valores extremos com um conjunto de modelos de visualização pré-configurados robustos, identificar rapidamente inconsistências em seu fluxo de trabalho de preparação de dados e diagnosticar problemas antes que os modelos sejam implantados na produção. Por fim, você pode exportar seu fluxo de trabalho de preparação de dados para o Amazon S3 para uso com outros SageMaker recursos, como Amazon SageMaker Autopilot, Amazon SageMaker Feature Store e Amazon Pipelines. SageMaker

Você pode criptografar a saída de suas consultas usando um AWS Key Management Service chave que você criou. Para obter mais informações sobre AWS KMS, veja AWS Key Management Service.

Guia do administrador

Importante

Para saber mais sobre controle de acesso granular e melhores práticas, consulte Controle de acesso de segurança.

Esta seção é para administradores do Snowflake que estão configurando o acesso ao Snowflake a partir do Data Wrangler. SageMaker

Importante

Você é responsável por gerenciar e monitorar o controle de acesso no Snowflake. O Data Wrangler não adiciona uma camada de controle de acesso em relação ao Snowflake.

O controle de acesso inclui o seguinte:

  • Os dados que um usuário acessa

  • (Opcional) A integração de armazenamento que fornece ao Snowflake a capacidade de gravar resultados de consulta em um bucket do Amazon S3

  • As consultas que um usuário pode executar

(Opcional) Configurar as permissões de importação de dados do Snowflake

Por padrão, o Data Wrangler consulta os dados no Snowflake sem criar uma cópia deles em um local do Amazon S3. Use as informações a seguir se estiver configurando uma integração de armazenamento com o Snowflake. Seus usuários podem usar uma integração de armazenamento para armazenar os resultados da consulta em um local do Amazon S3.

Seus usuários podem ter diferentes níveis de acesso a dados confidenciais. Para obter segurança de dados ideal, forneça a cada usuário sua própria integração de armazenamento. Cada integração de armazenamento deve ter a sua própria política de governação de dados.

Esse atributo não está atualmente disponível nas Regiões que optaram por não participar.

O Snowflake requer as seguintes permissões em um bucket e diretório S3 para poder acessar os arquivos no diretório:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Crie uma IAM política

Você deve criar uma IAM política para configurar as permissões de acesso para que o Snowflake carregue e descarregue dados de um bucket do Amazon S3.

A seguir está o documento JSON de política que você usa para criar a política:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Para obter informações e procedimentos sobre a criação de políticas com documentos de políticas, consulte Criação de IAM políticas.

Para obter uma documentação que fornece uma visão geral do uso de IAM permissões com o Snowflake, consulte os seguintes recursos:

Para conceder permissão de uso da função Snowflake do cientista de dados para a integração de armazenamento, você deve executar GRANT USAGE ON INTEGRATION integration_name TO snowflake_role;.

  • integration_name é o nome da sua integração de armazenamento.

  • snowflake_role é o nome da função padrão do Snowflake atribuída ao usuário cientista de dados.

Configurando o Snowflake Access OAuth

Em vez de fazer com que seus usuários insiram suas credenciais diretamente no Data Wrangler, você pode fazer com que eles usem um provedor de identidade para acessar o Snowflake. A seguir estão links para a documentação do Snowflake para os provedores de identidade suportados pelo Data Wrangler.

Use a documentação dos links anteriores para configurar o acesso ao seu provedor de identidade. As informações e procedimentos nesta seção ajudam você a entender como usar corretamente a documentação para acessar o Snowflake no Data Wrangler.

Seu provedor de identidade precisa reconhecer o Data Wrangler como um aplicativo. Use o procedimento a seguir para registrar o Data Wrangler como um aplicativo no provedor de identidade:

  1. Selecione a configuração que inicia o processo de registro do Data Wrangler como um aplicativo.

  2. Forneça aos usuários do provedor de identidade acesso ao Data Wrangler.

  3. Ative a autenticação OAuth do cliente armazenando as credenciais do cliente como AWS Secrets Manager segredo.

  4. Especifique um redirecionamento URL usando o seguinte formato: https://domain-ID.estúdio.Região da AWS.sagemaker.aws/jupyter/default/lab

    Importante

    Você está especificando o ID de SageMaker domínio da Amazon e Região da AWS que você está usando para executar o Data Wrangler.

    Importante

    Você deve registrar um URL para cada SageMaker domínio da Amazon e Região da AWS onde você está executando o Data Wrangler. Usuários de um domínio e Região da AWS que não tenham o redirecionamento URLs configurado para eles não conseguirão se autenticar com o provedor de identidade para acessar a conexão do Snowflake.

  5. Certifique-se de que o código de autorização e os tipos de concessão de token de atualização sejam permitidos para o aplicativo Data Wrangler.

Em seu provedor de identidade, você deve configurar um servidor que envie OAuth tokens para o Data Wrangler no nível do usuário. O servidor envia os tokens com Snowflake como público.

Snowflake usa o conceito de funções que são funções distintas: as IAM funções usadas em AWS. Você deve configurar o provedor de identidade para usar qualquer função para usar a função padrão associada à conta do Snowflake. Por exemplo, se um usuário tiver systems administrator a perfil padrão em seu perfil do Snowflake, a conexão do Data Wrangler com o Snowflake será usada como perfil systems administrator.

Use o seguinte procedimento para configurar o servidor.

Para configurar o servidor, siga os seguintes passos. Você está trabalhando no Snowflake em todas as etapas, exceto na última.

  1. Comece a configurar o servidor ouAPI.

  2. Configure o servidor de autorização para usar o código de autorização e os tipos de concessão do token de atualização.

  3. Especifique a vida útil do token de acesso.

  4. Defina o tempo limite de inatividade do token de atualização. O tempo limite de inatividade é o tempo em que o token de atualização expira se não for usado.

    nota

    Se você estiver agendando trabalhos no Data Wrangler, recomendamos que o tempo limite de inatividade seja maior que a frequência do trabalho de processamento. Caso contrário, alguns trabalhos de processamento poderão falhar porque o token de atualização expirou antes que pudessem ser executados. Quando o token de atualização expirar, o usuário deverá autenticar novamente acessando a conexão que fez com o Snowflake por meio do Data Wrangler.

  5. Especifique session:role-any como o novo escopo.

    nota

    Para o Azure AD, copie o identificador exclusivo do escopo. O Data Wrangler exige que você forneça o identificador.

  6. Importante

    Na Integração de OAuth Segurança Externa do Snowflake, habilite. external_oauth_any_role_mode

Importante

O Data Wrangler não oferece suporte a tokens de atualização rotativos. O uso de tokens de atualização rotativos pode resultar em falhas de acesso ou na necessidade de login frequente dos usuários.

Importante

Se o token de atualização expirar, seus usuários deverão se autenticar novamente acessando a conexão que fizeram com o Snowflake por meio do Data Wrangler.

Depois de configurar o OAuth provedor, você fornece ao Data Wrangler as informações necessárias para se conectar ao provedor. Você pode usar a documentação do seu provedor de identidade para obter valores para os seguintes campos:

  • Token URL — O token que o provedor URL de identidade envia ao Data Wrangler.

  • Autorização URL — A URL do servidor de autorização do provedor de identidade.

  • ID do cliente — O ID do provedor de identidade.

  • Segredo do cliente — O segredo que somente o servidor de autorização API reconhece.

  • (Somente Azure AD) As credenciais do OAuth escopo que você copiou.

Você armazena os campos e valores em um AWS Secrets Manager segredo e adicione-o à configuração do ciclo de vida do Amazon SageMaker Studio Classic que você está usando para o Data Wrangler. Uma configuração de duração é um script de shell. Use-o para tornar o Amazon Resource Name (ARN) do segredo acessível ao Data Wrangler. Para obter informações sobre a criação de segredos, consulte Mover segredos codificados para AWS Secrets Manager. Para obter informações sobre o uso de configurações de ciclo de vida no Studio Classic, consulte. Use configurações de ciclo de vida para personalizar o Studio Classic

Importante

Antes de criar um segredo do Secrets Manager, certifique-se de que a função de SageMaker execução que você está usando para o Amazon SageMaker Studio Classic tenha permissões para criar e atualizar segredos no Secrets Manager. Para obter mais informações sobre como adicionar permissões, consulte Exemplo: permissão para criar segredos.

Para Okta e Ping Federate, o seguinte é o formato do segredo:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Para o Azure AD, o formato do segredo é o seguinte.

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Você deve ter uma configuração de duração que use o segredo do Secrets Manager que você criou. Você pode criar a configuração de duração ou modificar uma que já tenha sido criada. A configuração deve usar o script a seguir.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Para obter informações sobre como criar configurações de duração, consulte Criar e associar uma configuração de ciclo de vida. Quando estiver passando pelo processo de configuração, siga as instruções a seguir:

  • Defina o tipo de aplicativo da configuração como Jupyter Server.

  • Anexe a configuração ao SageMaker domínio da Amazon que tem seus usuários.

  • Faça com que a configuração seja executada por padrão. Ele deve ser executado sempre que um usuário fizer login no Studio Classic. Caso contrário, as credenciais salvas na configuração não estarão disponíveis para seus usuários quando eles estiverem usando o Data Wrangler.

  • A configuração de duração cria um arquivo com o nome, snowflake_identity_provider_oauth_config na pasta inicial do usuário. O arquivo contém o segredo do Secrets Manager. Certifique-se de que ele esteja na pasta inicial do usuário toda vez que a instância do Jupyter Server for inicializada.

Conectividade privada entre o Data Wrangler e o Snowflake via AWS PrivateLink

Esta seção explica como usar AWS PrivateLink para estabelecer uma conexão privada entre o Data Wrangler e o Snowflake. As etapas são explicadas nas seguintes seções.

Crie um VPC

Se você não tiver uma VPC configuração, siga as VPC instruções Criar uma nova para criar uma.

Depois de escolher uma opção que VPC você gostaria de usar para estabelecer uma conexão privada, forneça as seguintes credenciais ao administrador do Snowflake para habilitar AWS PrivateLink:

  • VPCID

  • AWS ID da conta

  • Sua conta correspondente URL que você usa para acessar o Snowflake

Importante

Conforme descrito na documentação do Snowflake, habilitar sua conta do Snowflake pode levar até dois dias úteis.

Depois AWS PrivateLink está ativado, recupere o AWS PrivateLink configuração para sua região executando o comando a seguir em uma planilha do Snowflake. Faça login no console do Snowflake e insira o seguinte em Planilhas: select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Recupere os valores para o seguinte: privatelink-account-nameprivatelink_ocsp-url,privatelink-account-url, e privatelink_ocsp-url do JSON objeto resultante. O seguinte trecho mostra exemplos de cada valor. Armazene esses valores para uso posterior.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Mude para o seu AWS Console e navegue até o VPC menu.

  3. No painel do lado esquerdo, escolha o link Endpoints para navegar até a configuração de VPCEndpoints.

    Uma vez lá, escolha Criar endpoint.

  4. Selecione o botão de rádio para Localizar serviço por nome, conforme mostrado na captura de tela a seguir.

    A seção Criar endpoint no console.
  5. No campo Nome do serviço, cole o valor privatelink-vpce-id que você recuperou na etapa anterior e escolha Verificar.

    Se a conexão for bem-sucedida, um alerta verde dizendo Nome do serviço encontrado aparecerá na tela e as opções VPCe Sub-rede se expandirão automaticamente, conforme mostrado na captura de tela a seguir. Dependendo da sua região de destino, a tela resultante pode mostrar outra AWS Nome da região.

    A seção Criar endpoint no console mostrando que a conexão foi bem-sucedida.
  6. Selecione a mesma VPC ID que você enviou para o Snowflake na lista VPCsuspensa.

  7. Se você ainda não criou uma sub-rede, execute o seguinte conjunto de instruções sobre como criar uma sub-rede.

  8. Selecione Sub-redes na VPClista suspensa. Em seguida, selecione Criar sub-rede e siga as instruções para criar um subconjunto no seu. VPC Certifique-se de selecionar o VPC ID que você enviou ao Snowflake.

  9. Em Configuração do grupo de segurança, selecione Criar novo grupo de segurança para abrir a tela padrão do grupo de segurança em uma nova guia. Nessa nova guia, selecione Criar grupo de segurança.

  10. Forneça um nome para o novo grupo de segurança (como por exemplo, datawrangler-doc-snowflake-privatelink-connection) e uma descrição. Certifique-se de selecionar o VPC ID que você usou nas etapas anteriores.

  11. Adicione duas regras para permitir o tráfego de dentro do seu VPC para esse VPC endpoint.

    Navegue até seu VPC em Seu VPCs em uma guia separada e recupere seu CIDR bloco para seuVPC. Depois, escolha Adicionar regras na seção Regras de entrda. Selecione HTTPS o tipo, deixe a Fonte como Personalizada no formulário e cole o valor recuperado da describe-vpcs chamada anterior (como 10.0.0.0/16).

  12. Escolha Criar grupo de segurança. Recupere a ID do Grupo de Segurança do grupo de segurança recém-criado (como sg-xxxxxxxxxxxxxxxxx).

  13. Na tela de configuração do VPCEndpoint, remova o grupo de segurança padrão. Cole o ID do grupo de segurança no campo de pesquisa e marque a caixa de seleção.

    A seção Grupo de segurança no console.
  14. Selecione Criar endpoint.

  15. Se a criação do endpoint for bem-sucedida, você verá uma página com um link para a configuração do VPC endpoint, especificado pelo VPC ID. Selecione o link para ver a configuração completa.

    A seção Detalhes do endpoint.

    Recupere o registro mais alto na lista de DNS nomes. Isso pode ser diferenciado de outros DNS nomes porque inclui apenas o nome da região (comous-west-2) e nenhuma notação de letra da Zona de Disponibilidade (comous-west-2a). Armazene essas informações para uso posterior.

Esta seção explica como configurar DNS os endpoints do Snowflake em seu. VPC Isso permite que você VPC resolva solicitações para o Snowflake AWS PrivateLink ponto final.

  1. Navegue até o menu Route 53 em seu AWS console.

  2. Selecione a opção Zonas hospedadas (se necessário, expanda o menu à esquerda para encontrar essa opção).

  3. Escolha Criar hosted zone.

    1. No campo Nome do domínio, faça referência ao valor armazenado privatelink-account-url nas etapas anteriores. Nesse campo, o ID da sua conta do Snowflake é removido do DNS nome e usa somente o valor que começa com o identificador da região. Um conjunto de registros de recursos também é criado posteriormente para o subdomínio, como region.privatelink.snowflakecomputing.com.

    2. Selecione o botão de rádio para Zona Hospedada Privada na seção Tipo. Seu código de região pode não ser us-west-2. Faça referência ao DNS nome devolvido a você por Snowflake.

      A página Criar zona hospedada no console.
    3. Na seção VPCsPara associar à zona hospedada, selecione a região na qual você VPC está localizado e o VPC ID usado nas etapas anteriores.

      A seção VPCspara associar à zona hospedada no console.
    4. Escolha Create hosted zone (Criar zona hospedada).

  4. Em seguida, crie dois registros, um para privatelink-account-url e outro para privatelink_ocsp-url.

    • No menu Zona hospedada, escolha Criar conjunto de registros.

      1. Em Nome do registro, insira somente o ID da sua conta Snowflake (os primeiros 8 caracteres) privatelink-account-url.

      2. Em Tipo de registro, selecione CNAME.

      3. Em Valor, insira o DNS nome do VPC endpoint regional que você recuperou na última etapa da seção Configurar o Snowflake AWS PrivateLink Seção de integração.

        A seção Criação rápida de registro no console.
      4. Escolha Create records (Criar registros).

      5. Repita as etapas anteriores para o OCSP registro que anotamosprivatelink-ocsp-url, começando com ocsp o ID do Snowflake de 8 caracteres para o nome do registro (como). ocsp.xxxxxxxx

        A seção Criação rápida de registro no console.

Esta seção explica como configurar os endpoints de entrada dos resolvedores do Route 53 para o seu. VPC

  1. Navegue até o menu Route 53 em seu AWS console.

    • No painel esquerdo da seção Segurança, selecione a opção Grupos de segurança.

  2. Escolha Criar grupo de segurança.

    • Forneça um nome para o seu grupo de segurança (como por exemplo, datawranger-doc-route53-resolver-sg) e uma descrição.

    • Selecione a VPC ID usada nas etapas anteriores.

    • Crie regras que DNS permitam entrar UDP e sair TCP de dentro do VPC CIDR bloco.

      A seção de regras de entrada no console.
    • Escolha Criar grupo de segurança. Anote o ID do grupo de segurança porque adiciona uma regra para permitir o tráfego para o grupo de segurança do VPC endpoint.

  3. Navegue até o menu Route 53 em seu AWS console.

    • Na seção Resolver, selecione a opção Endpoint de entrada.

  4. Escolha Criar endpoint de entrada.

    • Forneça um nome do endpoint.

    • VPCNa lista suspensa Região, selecione a VPC ID que você usou em todas as etapas anteriores.

    • Na lista suspensa Grupo de segurança para este endpoint, selecione o ID do grupo de segurança na Etapa 2 desta seção.

      A seção Configurações gerais para endpoint de entrada no console.
    • Na seção Endereço IP, selecione uma zona de disponibilidade, selecione uma sub-rede e deixe o seletor de rádio para Usar um endereço IP selecionado automaticamente para cada endereço IP.

      A seção Endereço IP no console.
    • Selecione Enviar.

  5. Selecione o endpoint de entrada após sua criação.

  6. Depois que o endpoint de entrada for criado, anote os dois endereços IP dos resolvedores.

    A seção Endereços IP no console.
SageMaker VPCEndpoints

Esta seção explica como criar VPC endpoints para o seguinte: Amazon SageMaker Studio Classic, SageMaker Notebooks, the SageMaker API, SageMaker Runtime Runtime e Amazon SageMaker Feature Store Runtime.

Crie um grupo de segurança que seja aplicado a todos os endpoints.

  1. Navegue até o EC2menu no AWS Console.

  2. Na seção Rede e Segurança, selecione a opção Grupos de segurança.

  3. Escolha Create security group (Criar grupo de segurança).

  4. Forneça um nome e descrição do grupo de segurança (como por exemplo, datawrangler-doc-sagemaker-vpce-sg) Uma regra é adicionada posteriormente para permitir a passagem HTTPS do tráfego SageMaker para esse grupo.

Como criar os endpoints

  1. Navegue até o VPCmenu no AWS console.

  2. Selecione a opção Endpoints.

  3. Escolha Criar Endpoint.

  4. Pesquise o serviço inserindo seu nome no campo Pesquisar.

  5. Na lista VPCsuspensa, selecione o VPC em que seu floco de neve AWS PrivateLink a conexão existe.

  6. Na seção Sub-redes, selecione as sub-redes que têm acesso à conexão do Snowflake. PrivateLink

  7. Deixe a caixa de seleção Ativar DNS nome marcada.

  8. Na seção Grupos de segurança, selecione o grupo de segurança que você criou na seção anterior.

  9. Escolha Criar Endpoint.

Configurar o Studio Classic e o Data Wrangler

Esta seção explica como configurar o Studio Classic e o Data Wrangler.

  1. Configure o grupo de segurança.

    1. Navegue até o EC2 menu da Amazon no AWS Console.

    2. Selecione a opção Grupos de segurança na seção Rede e segurança.

    3. Escolha Criar grupo de segurança.

    4. Forneça um nome e descrição doseu grupo de segurança (como por exemplo, datawrangler-doc-sagemaker-studio)

    5. Crie as seguintes regras de entrada.

      • A HTTPS conexão com o grupo de segurança que você provisionou para a PrivateLink conexão do Snowflake que você criou na etapa Configurar a integração do Snowflake. PrivateLink

      • A HTTP conexão com o grupo de segurança que você provisionou para a PrivateLink conexão do Snowflake que você criou na etapa Configurar a integração do Snowflake. PrivateLink

      • O UDP e TCP para DNS (porta 53) para o grupo de segurança do Route 53 Resolver Inbound Endpoint que você cria na etapa 2 de Configurar o Route 53 Resolver Inbound Endpoint para seu. VPC

    6. Escolha o botão Criar grupo de segurança no canto inferior direito.

  2. Configure o Studio Classic.

    • Navegue até o SageMaker menu no AWS console.

    • No console esquerdo, selecione a opção SageMakerStudio Classic.

    • Se você não tiver nenhum domínio configurado, o menu Conceitos básicos estará presente.

    • Selecione a opção Configuração padrão no menu Conceitos básicos.

    • Em Método de autenticação, selecione AWS Identity and Access Management (IAM).

    • No menu Permissões, você pode criar uma nova função ou usar uma função preexistente, dependendo do seu caso de uso.

      • Se você escolher Criar um novo perfil, você terá a opção de fornecer um nome de bucket do S3 e uma política será gerada para você.

      • Se você já tiver um papel criado com permissões para os buckets do S3 aos quais você precisa de acesso, selecione o papel na lista suspensa. Esse cargo deve ter a política AmazonSageMakerFullAccess associada a ele.

    • Selecione a lista suspensa Rede e Armazenamento para configurar os usosVPC, a segurança e as SageMaker sub-redes.

      • Em VPC, selecione o local VPC em que sua PrivateLink conexão com o Snowflake existe.

      • Em Sub-rede (s), selecione as sub-redes que têm acesso à conexão do Snowflake. PrivateLink

      • Em Acesso à rede para o Studio Classic, selecione VPCSomente.

      • Em Grupo(s) de segurança, selecione o grupo de segurança que você criou na etapa 1.

    • Selecione Enviar.

  3. Edite o grupo SageMaker de segurança.

    • Crie as seguintes regras de entrada:

      • Porta 2049 para os grupos de NFS segurança de entrada e saída criados automaticamente SageMaker na etapa 2 (os nomes dos grupos de segurança contêm o ID de domínio do Studio Classic).

      • Acesso a todas as TCP portas sozinho (necessário SageMaker para o VPC Only).

  4. Edite os grupos de segurança de VPC terminais:

    • Navegue até o EC2 menu da Amazon no AWS console.

    • Localize o grupo de segurança que você criou na etapa anterior.

    • Adicione uma regra de entrada que permita o HTTPS tráfego do grupo de segurança criado na etapa 1.

  5. Crie um perfil de usuário.

    • No Painel de controle do SageMaker Studio Classic, escolha Adicionar usuário.

    • Forneça um nome de usuário.

    • EmFunção de execução, escolha criar uma nova função ou usar uma função pré-existente.

      • Se você escolher Criar um novo perfil, você terá a opção de fornecer um nome de bucket do Amazon S3 e uma política será gerada para você.

      • Se você já tem uma função criada com permissões para os buckets do Amazon S3 aos quais você precisa de acesso, selecione a função na lista suspensa. Esse cargo deve ter a política AmazonSageMakerFullAccess associada a ele.

    • Selecione Enviar.

  6. Crie um fluxo de dados (siga o guia do cientista de dados descrito na seção anterior).

    • Ao adicionar uma conexão com o Snowflake, insira o valor de privatelink-account-name (na etapa Configurar PrivateLink integração com o Snowflake) no campo Nome da conta do Snowflake (alfanumérico), em vez do nome simples da conta do Snowflake. Todo o resto permanece inalterado.

Fornecer informações ao cientista de dados

Forneça ao cientista de dados as informações de que ele precisa para acessar o Snowflake a partir do Amazon SageMaker Data Wrangler.

Importante

Seus usuários precisam executar o Amazon SageMaker Studio Classic versão 1.3.0 ou posterior. Para obter informações sobre como verificar a versão do Studio Classic e atualizá-la, consultePrepare dados de ML com o Amazon SageMaker Data Wrangler.

  1. Para permitir que seu cientista de dados acesse o Snowflake a partir do SageMaker Data Wrangler, forneça a ele uma das seguintes opções:

    • Para Autenticação básica, é necessário um nome de conta Snowflake, um nome de usuário e uma senha.

    • ParaOAuth, um nome de usuário e senha no provedor de identidade.

    • ParaARN, o nome secreto do Amazon Resource Name (ARN) do Secrets Manager.

    • Um segredo criado com AWS Secrets Manager e o ARN do segredo. Use o procedimento abaixo para criar o segredo (secret) para o Snowflake, caso opte por esta opção.

      Importante

      Se seus cientistas de dados usarem a opção Snowflake Credentials (nome de usuário e senha) para se conectar ao Snowflake, você poderá usar o Secrets Manager para armazenar as credenciais em segredo. O Secrets Manager alterna os segredos como parte de um plano de segurança de práticas recomendadas. O segredo criado no Secrets Manager só pode ser acessado com a função Studio Classic configurada quando você configura um perfil de usuário do Studio Classic. Isso exige que você adicione essa permissão,secretsmanager:PutResourcePolicy, à política anexada à sua função do Studio Classic.

      É altamente recomendável que você defina o escopo da política de funções para usar funções diferentes para diferentes grupos de usuários do Studio Classic. Você pode adicionar permissões adicionais baseadas em recursos para os segredos do Secrets Manager. Consulte Gerenciar política do segredo para ver as chaves de condição que você pode usar.

      Para obter informações sobre como criar um segredo, consulte Criar um segredo. Você é cobrado pelos segredos que você cria.

  2. (Opcional) Forneça ao cientista de dados o nome da integração de armazenamento que você criou usando o procedimento a seguir: Criar uma integração de armazenamento em nuvem no Snowflake. Esse é o nome da nova integração e é chamado integration_name no CREATE INTEGRATION SQL comando que você executou, que é mostrado no seguinte trecho:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Guia do cientista de dados

Utilize o seguinte para conectar ao Snowflake e acessar seus dados no Data Wrangler.

Importante

Seu administrador precisa usar as informações nas seções anteriores para configurar o Snowflake. Se você estiver enfrentando problemas, entre em contato com eles para obter ajuda na solução de problemas.

Você pode se conectar ao Snowflake de uma das seguintes maneiras:

  • Especificar suas credenciais do Snowflake (nome da conta, nome de usuário e senha) no Data Wrangler.

  • Fornecer um nome de recurso da Amazon (ARN) de um segredo contendo as credenciais.

  • Usando um padrão aberto para o provedor de delegação de acesso (OAuth) que se conecta ao Snowflake. Seu administrador pode lhe dar acesso a um dos seguintes OAuth provedores:

Converse com seu administrador sobre o método que você precisa usar para se conectar ao Snowflake.

As seguintes seções contêm informações sobre como você pode se conectar ao Snowflake usando os métodos mencionados anteriormente.

Specifying your Snowflake Credentials
Para importar um conjunto de dados para o Data Wrangler do Snowflake usando suas credenciais:
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Snowflake.

  10. Em Nome da conexão, especifique um nome que identifique a conexão de forma exclusiva.

  11. Em Método de autenticação, escolha Nome e senha do usuário.

  12. Para o nome da conta do Snowflake (alfanumérico), especifique o nome completo da conta do Snowflake.

  13. Em Nome de usuário, especifique o nome de usuário que você usa para acessar a conta do Snowflake.

  14. Em Senha, especifique a senha associada ao seu nome de usuário.

  15. (Opcional) Para configurações avançadas, especifique o seguinte:

    • Função — Uma função dentro do Snowflake. Algumas funções têm acesso a conjuntos de dados diferentes. Se você não especificar uma função, o Data Wrangler usará a função padrão em sua conta Snowflake.

    • Integração de armazenamento — Quando você especifica e executa uma consulta, o Data Wrangler cria uma cópia temporária dos resultados da consulta na memória. Para armazenar uma cópia permanente dos resultados da consulta, especifique a localização do Amazon S3 para a integração de armazenamento. Seu administrador lhe forneceu o S3URI.

    • KMSID da chave — Uma KMS chave que você criou. Você pode especificá-lo ARN para criptografar a saída da consulta do Snowflake. Caso contrário, o Data Wrangler usa a criptografia padrão.

  16. Selecione Conectar.

Providing an Amazon Resource Name (ARN)
Para importar um conjunto de dados do Snowflake para o Data Wrangler usando um ARN
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Snowflake.

  10. Em Nome da conexão, especifique um nome que identifique a conexão de forma exclusiva.

  11. Em Método de autenticação, escolha ARN.

  12. Secrets Manager ARN — O ARN dos AWS Secrets Manager segredo usado para armazenar as credenciais usadas para se conectar ao Snowflake.

  13. (Opcional) Para configurações avançadas, especifique o seguinte:

    • Função — Uma função dentro do Snowflake. Algumas funções têm acesso a conjuntos de dados diferentes. Se você não especificar uma função, o Data Wrangler usará a função padrão em sua conta Snowflake.

    • Integração de armazenamento — Quando você especifica e executa uma consulta, o Data Wrangler cria uma cópia temporária dos resultados da consulta na memória. Para armazenar uma cópia permanente dos resultados da consulta, especifique a localização do Amazon S3 para a integração de armazenamento. Seu administrador lhe forneceu o S3URI.

    • KMSID da chave — Uma KMS chave que você criou. Você pode especificá-lo ARN para criptografar a saída da consulta do Snowflake. Caso contrário, o Data Wrangler usa a criptografia padrão.

  14. Selecione Conectar.

Using an OAuth Connection
Importante

Seu administrador personalizou seu ambiente Studio Classic para fornecer a funcionalidade que você está usando para usar uma OAuth conexão. Você talvez precise reiniciar a aplicação do servidor Jupyter para utilizar essa funcionalidade.

Utilize o procedimento a seguir para atualizar a aplicação do servidor Jupyter.

  1. No Studio Classic, escolha Arquivo

  2. Escolha Desligar.

  3. Escolha Desligar o servidor.

  4. Feche a guia ou janela que você está usando para acessar o Studio Classic.

  5. No SageMaker console da Amazon, abra o Studio Classic.

Para importar um conjunto de dados para o Data Wrangler do Snowflake usando suas credenciais:
  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha Snowflake.

  10. Em Nome da conexão, especifique um nome que identifique a conexão de forma exclusiva.

  11. Em Método de autenticação, escolha OAuth.

  12. (Opcional) Para configurações avançadas, especifique o seguinte:

    • Função — Uma função dentro do Snowflake. Algumas funções têm acesso a conjuntos de dados diferentes. Se você não especificar uma função, o Data Wrangler usará a função padrão em sua conta Snowflake.

    • Integração de armazenamento — Quando você especifica e executa uma consulta, o Data Wrangler cria uma cópia temporária dos resultados da consulta na memória. Para armazenar uma cópia permanente dos resultados da consulta, especifique a localização do Amazon S3 para a integração de armazenamento. Seu administrador lhe forneceu o S3URI.

    • KMSID da chave — Uma KMS chave que você criou. Você pode especificá-lo ARN para criptografar a saída da consulta do Snowflake. Caso contrário, o Data Wrangler usa a criptografia padrão.

  13. Selecione Conectar.

Você pode iniciar o processo de importação dos seus dados do Snowflake depois de ter se conectado a ele.

Dentro do Data Wrangler, você pode visualizar seus data warehouses, bancos de dados e esquemas, juntamente com o ícone de olho com o qual você pode visualizar a tabela. Depois de selecionar o ícone Visualizar tabela, a visualização do esquema dessa tabela é gerada. Você deve selecionar um depósito antes de poder visualizar uma tabela.

Importante

Se você estiver importando um conjunto de dados com colunas do tipo TIMESTAMP_TZ ou TIMESTAMP_LTZ, adicione ::string aos nomes das colunas da sua consulta. Para obter mais informações, consulte Como descarregar LTZ dados TIMESTAMP _TZ e TIMESTAMP _ em um arquivo Parquet.

Após selecionar um data warehouse, banco de dados e esquema, agora você pode escrever consultas e executá-las. A saída da sua consulta é exibida em Resultados da consulta.

Depois de definir a saída da sua consulta, você poderá importar a saída da sua consulta para um fluxo do Data Wrangler para realizar transformações de dados.

Depois de importar seus dados, navegue até o fluxo do Data Wrangler e comece a adicionar transformações a ele. Para ver uma lista das transformações disponíveis, consulte Dados de transformação.

Importar dados de plataformas de software como serviço (SaaS)

Você pode usar o Data Wrangler para importar dados de mais de quarenta plataformas de software como serviço (SaaS). Para importar seus dados da sua plataforma SaaS, você ou seu administrador devem usar AppFlow a Amazon para transferir os dados da plataforma para o Amazon S3 ou o Amazon Redshift. Para obter mais informações sobre a Amazon AppFlow, consulte O que é a Amazon AppFlow? Se você não precisar usar o Amazon Redshift, recomendamos transferir os dados para o Amazon S3 para simplificar o processo.

O Data Wrangler suporta a transferência de dados das seguintes plataformas SaaS:

A lista anterior tem links para mais informações sobre como configurar sua fonte de dados. Você ou seu administrador podem consultar os links anteriores depois de terem lido as informações a seguir.

Ao navegar até a guia Importar do seu fluxo do Data Wrangler, você vê as fontes de dados nas seguintes seções:

  • Disponível

  • Configure as fontes de dados

Você pode se conectar às fontes de dados em Disponível sem precisar de configuração adicional. Você pode escolher a fonte de dados e importar seus dados.

As fontes de dados, em Configurar fontes de dados, exigem que você ou seu administrador usem AppFlow a Amazon para transferir os dados da plataforma SaaS para o Amazon S3 ou o Amazon Redshift. Para obter informações sobre como realizar uma transferência, consulte Usando AppFlow a Amazon para transferir seus dados.

Depois de realizar a transferência de dados, a plataforma SaaS aparece como uma fonte de dados em Disponível. Você pode escolhê-lo e importar os dados que você transferiu para o Data Wrangler. Os dados que você transferiu aparecem como tabelas que você pode consultar.

Usando AppFlow a Amazon para transferir seus dados

AppFlow A Amazon é uma plataforma que você pode usar para transferir dados da sua plataforma SaaS para o Amazon S3 ou o Amazon Redshift sem precisar escrever nenhum código. Para realizar uma transferência de dados, você usa o AWS Management Console.

Importante

Você deve se certificar de que configurou as permissões para realizar uma transferência de dados. Para obter mais informações, consulte AppFlow Permissões da Amazon.

Depois de adicionar as permissões, você pode transferir os dados. Na Amazon AppFlow, você cria um fluxo para transferir os dados. Um fluxo é uma série de configurações. Você pode usá-lo para especificar se está executando a transferência de dados em um cronograma ou se está particionando os dados em arquivos separados. Após ter configurado o fluxo, você o executa para transferir os dados.

Para obter informações sobre a criação de um fluxo, consulte Criação de fluxos na Amazon AppFlow. Para obter informações sobre como executar um fluxo, consulte Ativar um AppFlow fluxo da Amazon.

Depois que os dados forem transferidos, use o seguinte procedimento para acessar os dados no Data Wrangler.

Importante

Antes de tentar acessar seus dados, certifique-se de que sua IAM função tenha a seguinte política:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Por padrão, a IAM função que você usa para acessar o Data Wrangler é a. SageMakerExecutionRole Para obter mais informações sobre como adicionar políticas, consulte Adicionar permissões de IAM identidade (console).

Para estabelecer conexão com uma fonte de dados, siga os seguintes passos.

  1. Faça login no Amazon SageMaker Console.

  2. Escolha Studio.

  3. Escolha Iniciar aplicativo.

  4. Na lista suspensa, selecione Studio.

  5. Escolha o ícone Início.

  6. Escolha Dados.

  7. Escolha Data Wrangler.

  8. Escolha Importar dados.

  9. Em Disponível, escolha a fonte de dados.

  10. Para o campo Nome, especifique o nome da conexão.

  11. (Opcional) Escolha Configuração avançada.

    1. Escolha um Grupo de trabalho.

    2. Se seu grupo de trabalho não impôs o local de saída do Amazon S3 ou se você não usa um grupo de trabalho, especifique um valor para a localização dos resultados da consulta no Amazon S3.

    3. (Opcional) Em Período de retenção de dados, marque a caixa de seleção para definir um período de retenção de dados e especificar o número de dias para armazenar os dados antes de serem excluídos.

    4. (Opcional) Por padrão, o Data Wrangler salva a conexão. Você pode optar por desmarcar a caixa de seleção e não salvar a conexão.

  12. Selecione Conectar.

  13. Especifique uma consulta.

    nota

    Para ajudá-lo a especificar uma consulta, você pode escolher uma tabela no painel de navegação esquerdo. O Data Wrangler mostra o nome da tabela e uma visualização prévia da tabela. Clique no ícone ao lado do nome da tabela para copiá-lo. Você pode usar o nome da tabela na consulta.

  14. Escolha Executar.

  15. Escolha Importar consulta.

  16. Em nome do conjunto de dados, especifique o nome do conjunto de dados.

  17. Escolha Adicionar.

Ao navegar até a tela Importar dados, você pode ver a conexão que você criou. Você pode usar a conexão para importar mais dados.

Armazenamento de dados importados

Importante

É altamente recomendável que você siga as melhores práticas para proteger seu bucket do Amazon S3 seguindo as melhores práticas de segurança.

Quando você consulta dados do Amazon Athena ou do Amazon Redshift, o conjunto de dados consultado é automaticamente armazenado no Amazon S3. Os dados são armazenados no bucket SageMaker S3 padrão para o AWS Região na qual você está usando o Studio Classic.

Os buckets do S3 padrão têm a seguinte convenção de nomenclatura: sagemaker-region-account number. Por exemplo, se o número da sua conta for 111122223333 e você estiver usando o Studio Classic nous-east-1, seus conjuntos de dados importados serão armazenados em 111122223333. sagemaker-us-east-1-

Os fluxos do Data Wrangler dependem desta localização de conjunto de dados no Amazon S3, portanto, você não deve modificar este conjunto de dados no Amazon S3 enquanto estiver usando um fluxo dependente. Se você modificar esta localização no S3 e desejar continuar usando seu fluxo de dados, será necessário remover todos os objetos em trained_parameters no seu arquivo .flow. Para fazer isso, baixe o arquivo.flow do Studio Classic e, para cada instância detrained_parameters, exclua todas as entradas. Quando terminar, trained_parameters deve ser um JSON objeto vazio:

"trained_parameters": {}

Quando você exporta e utiliza seu fluxo de dados para processar seus dados, o arquivo .flow que você exporta faz referência a este conjunto de dados no Amazon S3. Consulte as seguintes seções para saber mais.

Armazenamento de importação do Amazon Redshift

O Data Wrangler armazena os conjuntos de dados resultantes da sua consulta em um arquivo Parquet em seu bucket padrão do S3. SageMaker

Esse arquivo é armazenado sob o seguinte prefixo (diretório): redshift/uuid/data/, onde uuid é um identificador exclusivo criado para cada consulta.

Por exemplo, se seu bucket padrão forsagemaker-us-east-1-111122223333, um único conjunto de dados consultado no Amazon Redshift está localizado em s3://-1-111122223333/redshift/ sagemaker-us-eastuuid/dados/.

Importar e armazenar do Amazon Athena

Quando você consulta um banco de dados do Athena e importa um conjunto de dados, o Data Wrangler armazena o conjunto de dados, bem como um subconjunto desse conjunto de dados, ou arquivos de pré-visualização, no Amazon S3.

O conjunto de dados que você importa ao selecionar Importar conjunto de dados é armazenado no formato Parquet no Amazon S3.

Os arquivos de visualização são gravados em CSV formato quando você seleciona Executar na tela de importação do Athena e contêm até 100 linhas do conjunto de dados consultado.

O conjunto de dados que você consulta está localizado sob o prefixo (diretório): athena/uuid/data/, onde uuid é um identificador exclusivo criado para cada consulta.

Por exemplo, se seu bucket padrão forsagemaker-us-east-1-111122223333, um único conjunto de dados consultado do Athena está localizado em /athena/ s3://sagemaker-us-east-1-111122223333uuid/dados/example_dataset.parquet.

O subconjunto do conjunto de dados armazenado para visualizar dataframes no Data Wrangler é armazenado sob o prefixo: athena/.