Conectar-se à fonte de dados - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conectar-se à fonte de dados

No Amazon SageMaker Canvas, você pode importar dados de um local fora do seu sistema de arquivos local por meio de um AWS serviço, uma plataforma SaaS ou outros bancos de dados usando conectores JDBC. Por exemplo, para importar tabelas de um data warehouse no Amazon Redshift ou para importar dados do Google Analytics.

Ao passar pelo fluxo de trabalho de Importação para importar dados no aplicativo Canvas, você pode escolher sua fonte de dados e, em seguida, selecionar os dados que deseja importar. Para determinadas fontes de dados, como o Snowflake e o Amazon Redshift, você deve especificar suas credenciais e adicionar uma conexão à fonte de dados.

A captura de tela a seguir mostra a barra de ferramentas das fontes de dados no fluxo de trabalho de Importação, com todas as fontes de dados disponíveis destacadas. Você só pode importar dados das fontes de dados que estão disponíveis para você. Entre em contato com o administrador se a fonte de dados desejada não estiver disponível.

Menu suspenso Fonte de dados da página Importar dados no Canvas.

As seções a seguir fornecem informações sobre como estabelecer conexões com fontes de dados externas e importar dados delas. Analise primeiro a seção a seguir para determinar quais permissões você precisa para importar dados da sua fonte de dados.

Permissões

Analise as informações a seguir para garantir que você tenha as permissões necessárias para importar dados da sua fonte de dados:

  • Amazon S3: você pode importar dados de qualquer bucket do Amazon S3, desde que seu usuário tenha permissões para acessar o bucket. Para obter mais informações sobre o uso AWS do IAM para controlar o acesso aos buckets do Amazon S3, consulte Gerenciamento de identidade e acesso no Amazon S3 no Guia do usuário do Amazon S3.

  • Amazon Athena: Se você tiver a política de AmazonSageMakerFullacesso e a AmazonSageMakerCanvasFullAccesspolítica vinculadas à função de execução do seu usuário, poderá consultá-la AWS Glue Data Catalog com o Amazon Athena. Se você faz parte de um grupo de trabalho do Athena, certifique-se de que o usuário do Canvas tenha as permissões para executar consultas do Athena nos dados. Para obter mais informações, consulte Usar grupos de trabalho para executar consultas no Manual do usuário do Amazon Athena.

  • Amazon DocumentDB: Você pode importar dados de qualquer banco de dados Amazon DocumentDB, desde que tenha as credenciais (nome de usuário e senha) para se conectar ao banco de dados e tenha as permissões básicas mínimas do Canvas associadas à função de execução do seu usuário. Para obter mais informações sobre as permissões do Canvas, consulte Pré-requisitos para configurar o Amazon Canvas SageMaker o.

  • Amazon Redshift: para dar a si mesmo as permissões necessárias para importar dados do Amazon Redshift, consulte Conceder permissões aos usuários para importar dados do Amazon Redshift.

  • Amazon RDS: Se você tiver a AmazonSageMakerCanvasFullAccesspolítica anexada à função de execução do seu usuário, poderá acessar seus bancos de dados do Amazon RDS a partir do Canvas.

  • Plataformas SaaS: se você tiver a política de AmazonSageMakerFullacesso e a AmazonSageMakerCanvasFullAccesspolítica vinculadas à função de execução do usuário, terá as permissões necessárias para importar dados das plataformas SaaS. Consulte Usar conectores SaaS com o Canvas para obter mais informações sobre como se conectar-se a um conector SaaS específico.

  • Conectores JDBC: para fontes de banco de dados como Databricks, MySQL ou MariaDB, você deve habilitar a autenticação de nome de usuário e senha no banco de dados de origem antes de tentar se conectar a partir do Canvas. Se você estiver se conectando a um banco de dados do Databricks, deverá ter o URL do JDBC que contém as credenciais necessárias.

Conecte-se a um banco de dados armazenado em AWS

Talvez você queira importar os dados que você armazenou AWS. Você pode importar dados do Amazon S3, usar o Amazon Athena para consultar um banco de dados no, importar dados AWS Glue Data Catalog do Amazon RDS ou fazer uma conexão com um banco de dados provisionado do Amazon Redshift (não com o Redshift Serverless).

Você pode criar várias conexões com o Amazon Redshift. No Amazon Athena, você pode acessar qualquer banco de dados existente em seu AWS Glue Data Catalog. No Amazon S3, você pode importar dados de um bucket, desde que tenha as permissões necessárias.

Para obter mais informações, verifique as seções a seguir.

Conectar-se aos dados no Amazon S3, Amazon Athena ou Amazon RDS

No Amazon S3, você pode importar dados de qualquer bucket do Amazon S3, desde que tenha permissões para acessar o bucket.

Para o Amazon Athena, você pode acessar bancos de dados em seu, AWS Glue Data Catalog desde que tenha permissões por meio do seu grupo de trabalho do Amazon Athena.

Para o Amazon RDS, se você tiver a AmazonSageMakerCanvasFullAccesspolítica anexada à sua função de usuário, poderá importar dados de seus bancos de dados do Amazon RDS para o Canvas.

Para importar dados de um bucket do Amazon S3 ou para executar consultas e importar tabelas de dados com o Amazon Athena, consulte Criar um conjunto de dados. Você pode importar somente dados tabulares do Amazon Athena e pode importar dados tabulares e de imagem do Amazon S3.

Conecte-se a um banco de dados Amazon DocumentDB

O Amazon DocumentDB é um serviço de banco de dados de documentos totalmente gerenciado e sem servidor. Você pode importar dados de documentos não estruturados armazenados em um banco de dados Amazon DocumentDB SageMaker para o Canvas como um conjunto de dados tabular e, em seguida, criar modelos de aprendizado de máquina com os dados.

Importante

Seu SageMaker domínio deve ser configurado somente no modo VPC para adicionar conexões ao Amazon DocumentDB. Você só pode acessar clusters do Amazon DocumentDB na mesma Amazon VPC do seu aplicativo Canvas. Além disso, o Canvas só pode se conectar a clusters Amazon DocumentDB habilitados para TLS. Para obter mais informações sobre como configurar o Canvas no modo somente VPC, consulte. Configurar o Amazon SageMaker Canvas em uma VPC sem acesso à Internet

Para importar dados dos bancos de dados do Amazon DocumentDB, você deve ter credenciais para acessar o banco de dados do Amazon DocumentDB e especificar o nome de usuário e a senha ao criar uma conexão com o banco de dados. Você pode configurar permissões mais granulares e restringir o acesso modificando as permissões de usuário do Amazon DocumentDB. Para saber mais sobre o controle de acesso no Amazon DocumentDB, consulte Acesso ao banco de dados usando controle de acesso baseado em funções no Guia do desenvolvedor do Amazon DocumentDB.

Quando você importa do Amazon DocumentDB, o Canvas converte seus dados não estruturados em um conjunto de dados tabular mapeando os campos em colunas em uma tabela. Tabelas adicionais são criadas para cada campo complexo (ou estrutura aninhada) nos dados, onde as colunas correspondem aos subcampos do campo complexo. Para obter informações mais detalhadas sobre esse processo e exemplos de conversão de esquema, consulte a página Amazon DocumentDB JDBC Driver Schema Discovery. GitHub

O Canvas só pode fazer uma conexão com um único banco de dados no Amazon DocumentDB. Para importar dados de um banco de dados diferente, você deve criar uma nova conexão.

Você pode importar dados do Amazon DocumentDB para o Canvas usando os seguintes métodos:

  • Criar um conjunto de dados. Você pode importar seus dados do Amazon DocumentDB e criar um conjunto de dados tabular no Canvas. Se você escolher esse método, siga o procedimento Importar dados tabulares.

  • Crie um fluxo de dados. Você pode criar um pipeline de preparação de dados no Canvas e adicionar seu banco de dados Amazon DocumentDB como fonte de dados.

Para continuar com a importação de seus dados, siga o procedimento de um dos métodos vinculados na lista anterior.

Ao chegar à etapa em qualquer fluxo de trabalho para escolher uma fonte de dados (Etapa 6 para criar um conjunto de dados ou Etapa 8 para criar um fluxo de dados), faça o seguinte:

  1. Para Fonte de dados, abra o menu suspenso e escolha DocumentDB.

  2. Escolha Adicionar conexão.

  3. Na caixa de diálogo, especifique suas credenciais do Amazon DocumentDB:

    1. Insira um Nome de conexão. Isso é um nome usado pelo Canvas para identificar esta conexão.

    2. Para Cluster, selecione o cluster no Amazon DocumentDB que armazena seus dados. O Canvas preenche automaticamente o menu suspenso com clusters Amazon DocumentDB na mesma VPC do seu aplicativo Canvas.

    3. Insira o nome de usuário do seu cluster Amazon DocumentDB.

    4. Insira a senha do seu cluster Amazon DocumentDB.

    5. Insira o nome do banco de dados ao qual você deseja se conectar.

    6. A opção de preferência de leitura determina de quais tipos de instâncias no seu cluster Canvas lê os dados. Selecione um dos seguintes:

      • Preferencial secundário — O Canvas usa como padrão a leitura das instâncias secundárias do cluster, mas se uma instância secundária não estiver disponível, o Canvas lê a partir de uma instância primária.

      • Secundário — O Canvas lê somente as instâncias secundárias do cluster, o que impede que as operações de leitura interfiram nas operações regulares de leitura e gravação do cluster.

    7. Escolha Adicionar conexão. A imagem a seguir mostra a caixa de diálogo com os campos anteriores para uma conexão do Amazon DocumentDB.

      Captura de tela da caixa de diálogo Adicionar uma nova conexão do DocumentDB no Canvas.

Agora você deve ter uma conexão com o Amazon DocumentDB e pode usar seus dados do Amazon DocumentDB no Canvas para criar um conjunto de dados ou um fluxo de dados.

Conectar-se a um banco de dados do Amazon Redshift

Você pode importar dados do Amazon Redshift, um data warehouse onde sua organização guarda seus dados. Antes de importar dados do Amazon Redshift, a função do AWS IAM que você usa deve ter a política AmazonRedshiftFullAccess gerenciada anexada. Para obter instruções sobre como anexar esta política, consulte Conceder permissões aos usuários para importar dados do Amazon Redshift.

Para importar dados do Amazon Redshift, faça o seguinte:

  1. Crie uma conexão com um banco de dados do Amazon Redshift.

  2. Alterar os dados que você quer importar.

  3. Importe os dados.

Você pode usar o editor Amazon Redshift para arrastar conjuntos de dados para o painel de importação e importá-los para o Canvas. SageMaker Para obter mais controle sobre os valores retornados no conjunto de dados, use o seguinte:

  • Consultas SQL

  • Junções

Com as consultas SQL, você pode personalizar a forma como importa os valores no conjunto de dados. Por exemplo, você pode especificar as colunas retornadas no conjunto de dados ou o intervalo de valores de uma coluna.

Você pode usar junções para combinar vários conjuntos de dados do Amazon Redshift em um único conjunto de dados. Você pode arrastar seus conjuntos de dados do Amazon Redshift para o painel que permite juntar os conjuntos de dados.

Você pode usar o editor SQL para editar o conjunto de dados que você juntou e converter o conjunto de dados associado em um único nó. Você pode juntar outro conjunto de dados ao nó. Você pode importar os dados que você selecionou para o SageMaker Canvas.

Use o procedimento a seguir para importar dados do Amazon Redshift.

  1. No aplicativo SageMaker Canvas, acesse a página Conjuntos de dados.

  2. Escolha Importar dados e, no menu suspenso, escolha Tabular.

  3. Insira um nome para o conjunto de dados e escolha Criar.

  4. Em Fonte de dados, abra o menu suspenso e escolha Redshift.

  5. Escolha Adicionar conexão.

  6. Na caixa de diálogo, especifique suas credenciais do Amazon Redshift:

    1. Em Método de autenticação, escolha IAM.

    2. Insira o Identificador de cluster para especificar a qual cluster você deseja se conectar. Insira somente o identificador do cluster e não o endpoint completo do cluster do Amazon Redshift.

    3. Insira o Nome do banco de dados do banco de dados ao qual deseja se conectar.

    4. Insira um Usuário do banco de dados para identificar o usuário que você deseja usar para se conectar ao banco de dados.

    5. Para o ARN, insira o ARN do perfil do IAM da função que o cluster do Amazon Redshift deve assumir para mover e gravar dados no Amazon S3. Para obter mais informações sobre essa função, consulte Autorizar o Amazon Redshift a acessar AWS outros serviços em seu nome no Guia de gerenciamento do Amazon Redshift.

    6. Insira um Nome de conexão. Isso é um nome usado pelo Canvas para identificar esta conexão.

  7. Na guia que tem o nome da sua conexão, arraste o arquivo .csv que você está importando para o painel Arrastar e soltar tabela para importar.

  8. Opcional: arraste tabelas adicionais para o painel de importação. Você pode usar a GUI para juntar as tabelas. Para obter mais especificidade em suas junções, escolha Editar em SQL.

  9. Opcional: se você estiver usando SQL para consultar os dados, poderá escolher Contexto para adicionar contexto à conexão especificando valores para o seguinte:

    • Warehouse

    • Database

    • Schema

  10. Escolha Importar dados.

A imagem a seguir mostra um exemplo de campos especificados para uma conexão do Amazon Redshift.

Captura de tela da caixa de diálogo Adicionar uma nova conexão com o Redshift no Canvas.

A imagem a seguir mostra a página usada para juntar conjuntos de dados no Amazon Redshift.

Captura de tela da página de importação no Canvas, mostrando dois conjuntos de dados sendo unidos.

A imagem a seguir mostra uma consulta SQL sendo usada para editar uma junção no Amazon Redshift.

Captura de tela de uma consulta SQL no editor Editar SQL na página Importar no Canvas.

Conectar-se aos seus dados com conectores JDBC

Com o JDBC, você pode se conectar aos seus bancos de dados a partir de fontes como Databricks, SQLServer, MySQL, PostgreSQL, MariaDB, Amazon RDS e Amazon Aurora.

Você deve se certificar de que tem as credenciais e permissões necessárias para criar a conexão a partir do Canvas.

  • Para o Databricks, você deve fornecer um URL do JDBC. A formatação do URL pode variar entre as instâncias do Databricks. Para obter informações sobre como encontrar o URL e especificar os parâmetros dentro dele, consulte os Parâmetros de configuração e conexão do JDBC na documentação do Databricks. O exemplo a seguir é de como um URL pode ser formatado: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode=http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token;PWD=personal-access-token

  • Para outras fontes de banco de dados, você deve configurar a autenticação de nome de usuário e senha e, em seguida, especificar essas credenciais ao se conectar ao banco de dados a partir do Canvas.

Além disso, sua fonte de dados deve estar acessível pela Internet pública ou, se seu aplicativo Canvas estiver sendo executado somente no modo VPC, a fonte de dados deverá ser executada na mesma VPC. Para obter mais informações sobre a configuração do banco de dados do Amazon RDS em uma VPC, consulte VPCs do Amazon VPC e do Amazon RDS no Guia do usuário do Amazon RDS.

Depois de configurar suas credenciais da fonte de dados, você pode entrar no aplicativo Canvas e criar uma conexão com a fonte de dados. Especifique suas credenciais (ou, para o Databricks, o URL) ao criar a conexão.

Conectar-se a fontes de dados com o OAuth

O Canvas é compatível com o uso do OAuth como um método de autenticação para se conectar aos seus dados no Snowflake e no Salesforce Data Cloud. O OAuth é uma plataforma de autenticação comum para conceder acesso a recursos sem compartilhar senhas.

nota

Você só pode estabelecer uma conexão OAuth para cada fonte de dados.

Para autorizar a conexão, você deve seguir a configuração inicial descrita em Configurar conexões com fontes de dados com o OAuth.

Depois de configurar as credenciais do OAuth, faça o seguinte para adicionar uma conexão do Snowflake ou do Salesforce Data Cloud com o OAuth:

  1. Faça login no aplicativo Canvas.

  2. Crie um conjunto de dados tabular. Quando solicitado a carregar dados, escolha Snowflake ou Salesforce Data Cloud como sua fonte de dados.

  3. Crie uma nova conexão com sua fonte de dados do Snowflake ou do Salesforce Data Cloud. Especifique o OAuth como método de autenticação e insira os detalhes da sua conexão.

Agora você conseguirá importar dados dos seus bancos de dados no Snowflake ou no Salesforce Data Cloud.

Conectar-se a uma plataforma SaaS

Você pode importar dados do Snowflake e de mais de 40 outras plataformas SaaS externas. Para obter uma lista completa de conectores, consulte a tabela em Importar dados para o Canvas.

nota

Você pode importar somente dados tabulares, como tabelas de dados, de plataformas SaaS.

Usar o Snowflake com o Canvas

O Snowflake é um serviço de armazenamento e análise de dados, e você pode importar seus dados do Snowflake para o Canvas. SageMaker Para obter mais informações sobre o Snowflake, consulte a Documentação do Snowflake.

É possível importar dados da sua conta do Snowflake da seguinte forma:

  1. Crie uma conexão com o banco de dados do Snowflake.

  2. Escolha os dados a serem importados arrastando e soltando a tabela do menu de navegação esquerdo para o editor.

  3. Importe os dados.

Você pode usar o editor Snowflake para arrastar conjuntos de dados para o painel de importação e importá-los para o Canvas. SageMaker Para obter mais controle sobre os valores retornados no conjunto de dados, use o seguinte:

  • Consultas SQL

  • Junções

Com as consultas SQL, você pode personalizar a forma como importa os valores no conjunto de dados. Por exemplo, você pode especificar as colunas retornadas no conjunto de dados ou o intervalo de valores de uma coluna.

Você pode juntar vários conjuntos de dados do Snowflake em um único conjunto de dados antes de importá-los para o Canvas usando SQL ou a interface Canvas. Você pode arrastar seus conjuntos de dados do Snowflake para o painel que permite juntar os conjuntos de dados ou pode editar as junções em SQL e converter o SQL em um único nó. Você pode juntar outros nós ao nó que você converteu. Em seguida, você pode combinar os conjuntos de dados juntados em um único nó e juntar os nós a um conjunto de dados diferente do Snowflake. Finalmente, você pode importar os dados selecionados para o Canvas.

Use o procedimento a seguir para importar dados do Snowflake para o Amazon SageMaker Canvas.

  1. No aplicativo SageMaker Canvas, acesse a página Conjuntos de dados.

  2. Escolha Importar dados e, no menu suspenso, escolha Tabular.

  3. Insira um nome para o conjunto de dados e escolha Criar.

  4. Em Fonte de dados, abra o menu suspenso e escolha Snowflake.

  5. Escolha Adicionar conexão.

  6. Na caixa de diálogo Adicionar uma nova conexão do Snowflake, especifique suas credenciais do Snowflake. No Método de autenticação, você pode escolher Básico - nome de usuário e senha, ARN ou OAuth. O OAuth permite que você se autentique sem fornecer uma senha, mas requer configuração adicional. Para obter mais informações sobre como configurar credenciais do OAuth para o Snowflake, consulte Configurar conexões com fontes de dados com o OAuth.

  7. Escolha Adicionar conexão.

  8. Na guia que tem o nome da sua conexão, arraste o arquivo .csv que você está importando para o painel Arrastar e soltar tabela para importar.

  9. Opcional: arraste tabelas adicionais para o painel de importação. Você pode usar a interface de usuário para juntar as tabelas. Para obter mais especificidade em suas junções, escolha Editar em SQL.

  10. Opcional: se você estiver usando SQL para consultar os dados, poderá escolher Contexto para adicionar contexto à conexão especificando valores para o seguinte:

    • Warehouse

    • Database

    • Schema

    Adicionar contexto a uma conexão facilita a especificação de futuras consultas.

  11. Escolha Importar dados.

A imagem a seguir mostra um exemplo de campos especificados para uma conexão do Snowflake.

Captura de tela da caixa de diálogo Adicionar uma nova conexão do Snowflake no Canvas.

A imagem a seguir mostra a página usada para adicionar contexto a uma conexão.

Captura de tela da página de importação no Canvas, mostrando a caixa de diálogo Contexto.

A imagem a seguir mostra a página usada para juntar conjuntos de dados no Snowflake.

Captura de tela da página de importação no Canvas, mostrando conjuntos de dados sendo unidos.

A imagem a seguir mostra uma consulta SQL sendo usada para editar uma junção no Snowflake.

Captura de tela de uma consulta SQL no editor Editar SQL na página Importar no Canvas.

Usar conectores SaaS com o Canvas

nota

Para plataformas SaaS além do Snowflake, você só pode ter uma conexão por fonte de dados.

Antes de importar dados de uma plataforma SaaS, seu administrador deve se autenticar e criar uma conexão com a fonte de dados. Para obter mais informações sobre como os administradores podem criar uma conexão com uma plataforma SaaS, consulte Gerenciamento de conexões da AppFlow Amazon no Guia do usuário da AppFlow Amazon.

Se você é um administrador que está começando a usar a Amazon AppFlow pela primeira vez, consulte Introdução no Guia do AppFlow usuário da Amazon.

Para importar dados de uma plataforma SaaS, você pode seguir o procedimento Importar dados tabulares padrão, que mostra como importar conjuntos de dados tabulares para o Canvas.