Dados em AWS Data Exchange - AWS Data Exchange Guia do usuário

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Dados em AWS Data Exchange

Os dados são organizados AWS Data Exchange usando três blocos de construção:

Esses três blocos de construção formam a base do produto que você gerencia usando o AWS Data Exchange console ou a AWS Data Exchange API.

Para criar, visualizar, atualizar ou excluir conjuntos de dados, você pode usar o AWS Data Exchange console, o AWS Command Line Interface (AWS CLI), seu próprio cliente REST ou um dos AWS SDKs. Para obter mais informações sobre o gerenciamento programático de conjuntos de AWS Data Exchange dados, consulte a Referência da AWS Data Exchange API.

Ativos

Os ativos são os dados que entram AWS Data Exchange.

O tipo de ativo define como os dados são entregues ao destinatário ou ao assinante por meio dos conjuntos de dados, das concessões de dados ou dos produtos que os contêm.

Um ativo pode ser qualquer um dos seguintes:

  • Um arquivo armazenado no computador local

  • Um arquivo armazenado como um objeto no Amazon Simple Storage Service (Amazon S3)

  • Uma API REST criada no Amazon API Gateway

  • Um conjunto de dados do Amazon Redshift

  • Uma permissão AWS Lake Formation de dados (pré-visualização)

  • Um conjunto de dados de acesso a dados do Amazon S3

Estrutura do ativo

Os ativos têm os seguintes parâmetros:

  • DataSetId — O ID do conjunto de dados que contém esse ativo.

  • RevisionId — O ID da revisão que contém esse ativo.

  • Id — Um ID exclusivo gerado quando o ativo é criado.

  • Arn— Um identificador exclusivo para o nome AWS de um recurso.

  • CreatedAt e UpdatedAt — Data e marcação de data e hora da criação e última atualização do ativo.

  • AssetDetails — Informações sobre o ativo.

  • AssetType — Um snapshot de um objeto do Amazon S3, uma API do Amazon API Gateway, um conjunto de dados do Amazon Redshift ou um conjunto de dados do Amazon S3.

exemplo recurso de ativo
{ "Name": "automation/cloudformation.yaml", "Arn": "arn:aws:dataexchange:us-east-1::data-sets/29EXAMPLE24b82c6858af3cEXAMPLEcf/revisions/bbEXAMPLE74c02f4745c660EXAMPLE20/assets/baEXAMPLE660c9fe7267966EXAMPLEf5", "Id": "baEXAMPLE660c9fe7267966EXAMPLEf5", "CreatedAt": "2019-10-17T21:31:29.833Z", "UpdatedAt": "2019-10-17T21:31:29.833Z", "AssetType": "S3_SNAPSHOT", "RevisionId": "bbEXAMPLE74c02f4745c660EXAMPLE20", "DataSetId": "29EXAMPLE24b82c6858af3cEXAMPLEcf", "AssetDetails": { "S3SnapshotAsset": { "Size": 9423 } } }

Tipos de ativo

Conjunto de dados de arquivos

Usando Arquivos, os assinantes podem acessar uma cópia do conjunto de dados como um conjunto de dados autorizado e exportar os ativos.

O proprietário do conjunto de dados pode importar e exportar arquivos usando o AWS Data Exchange console, programaticamente por meio de seu próprio aplicativo REST ou de um dos SDKs. AWS CLI AWS Para obter mais informações sobre como importar ativos do Amazon S3, consulte Importar ativos de um bucket do S3. Para obter mais informações sobre como exportar os ativos, consulte Exportar ativos para um bucket do S3.

Ativos de API

Com os ativos da API, os destinatários ou os assinantes dos dados podem visualizar a API e baixar a especificação da API como um conjunto de dados autorizado. Você também pode fazer chamadas de API para endpoints AWS Data Exchange gerenciados, que são então enviados por proxy para os endpoints do proprietário da API.

O proprietário de um conjunto de dados que tenha uma API existente do Amazon API Gateway pode adicionar um ativo de API usando o AWS Data Exchange console, programaticamente por meio do AWS CLI ou de um dos SDKs. AWS Para obter mais informações sobre como importar ativos de API, consulte Importar ativos de uma API do Amazon API Gateway.

nota

Atualmente, a operação SendApiAsset não é compatível com os seguintes SDKs:

  • AWS SDK for .NET

  • AWS SDK for C++

  • SDK para Java 2.x

Os proprietários do conjunto de dados que não têm uma API do Amazon API Gateway devem criar uma antes de adicionar um ativo de API ao produto. Para obter mais informações, consulte Desenvolver uma API REST no API Gateway no Guia do desenvolvedor do Amazon API Gateway.

Ativos de unidade de compartilhamento de dados do Amazon Redshift

Com os ativos de unidade de compartilhamento de dados do Amazon Redshift, os destinatários podem obter acesso somente leitura para consultar os dados no Amazon Redshift sem extrair, transformar e carregar dados.

Para obter mais informações sobre a importação de ativos de unidade de compartilhamento de dados do Amazon Redshift, consulte Importar ativos de uma unidade de compartilhamento de dados do AWS Data Exchange para o Amazon Redshift.

AWS Lake Formation permissão de dados (pré-visualização)

Com AWS Lake Formation os ativos de permissão de dados, os destinatários ou assinantes podem acessar e consultar todos os bancos de dados, tabelas ou colunas associados às tags especificadas.

Os proprietários do conjunto de dados devem criar e marcar os dados antes de importar as tags como parte de um ativo do AWS Data Exchange . Para obter mais informações sobre a importação de ativos de permissão de dados do Lake Formation, consulte Importar ativos de AWS Lake Formation (Visualização).

Acesso aos dados do Amazon S3

Com os ativos de acesso a dados do Amazon S3, os destinatários ou os assinantes podem acessar e usar diretamente os dados do provedor sem criar e gerenciar cópias de dados. Os proprietários do conjunto de dados podem configurar o AWS Data Exchange para o Amazon S3 além dos buckets existentes do Amazon S3 para compartilhar acesso direto a um bucket inteiro do S3 ou a prefixos e objetos específicos do Amazon S3.

Revisões

Uma revisão é um contêiner para um ou mais ativos.

Você usa revisões para atualizar dados no Amazon S3. Por exemplo, você pode agrupar uma coleção de arquivos .csv ou um único arquivo .csv e um dicionário para criar uma revisão. À medida que novos dados ficam disponíveis, você cria revisões e adiciona ativos. Depois de criar e finalizar a revisão usando o console do AWS Data Exchange , essa revisão estará imediatamente disponível para os assinantes. Para ter mais informações, consulte Publicação de novo produto.

Lembre-se do seguinte:

  • Para ser finalizada, uma revisão deve conter pelo menos um ativo.

  • É sua responsabilidade garantir que os recursos estejam corretos antes de finalizar sua revisão.

  • Uma revisão finalizada publicada em pelo menos uma concessão de dados ou um produto não pode ter a finalização cancelada nem pode ser alterada de nenhuma forma. (Exceto por meio do processo de revisão da revogação)

  • Depois que a revisão for finalizada, ela será publicada automaticamente nas concessões de dados ou nos produtos.

Estrutura de revisão

As revisões têm os seguintes parâmetros:

  • DataSetId — O ID do conjunto de dados que contém a revisão.

  • Comment — Um comentário sobre a revisão. Esse campo pode ter 128 caracteres.

  • Finalized — Verdadeiro ou falso. Usado para indicar se a revisão foi finalizada.

  • Id — O identificador exclusivo da revisão gerada quando ela é criada.

  • Arn— Um identificador exclusivo para o nome AWS de um recurso.

  • CreatedAt — Data e marcação de data e hora para a criação da revisão. As revisões autorizadas são criadas no momento da publicação.

  • UpdatedAt — Data e marcação de data e hora da última atualização da revisão.

  • Revoked — Um status indicando que o acesso dos assinantes à revisão foi revogado.

  • RevokedAt — Data e marcação de data e hora indicando quando o acesso do assinante à revisão foi revogado.

  • RevocationComment — Um comentário obrigatório para informar aos assinantes o motivo pelo qual seu acesso à revisão foi revogado. O tamanho mínimo de caracteres exigido é 10. Esse campo pode ter entre 10 e 512 caracteres.

  • SourceID — O ID da revisão de propriedade correspondente à revisão autorizada que está sendo visualizada. Esse parâmetro é retornado quando um proprietário de revisão está visualizando a cópia autorizada de sua revisão de propriedade.

exemplo recurso de revisão
{ "UpdatedAt": "2019-10-11T14:13:31.749Z", "DataSetId": "1EXAMPLE404460dc9b005a0d9EXAMPLE2f", "Comment": "initial data revision", "Finalized": true, "Id": "e5EXAMPLE224f879066f9999EXAMPLE42", "Arn": "arn:aws:dataexchange:us-east-1:123456789012:data-sets/1EXAMPLE404460dc9b005a0d9EXAMPLE2f/revisions/e5EXAMPLE224f879066f9999EXAMPLE42", "CreatedAt": "2019-10-11T14:11:58.064Z" }

Conjuntos de dados

Um conjunto de dados AWS Data Exchange é uma coleção de dados que pode mudar com o tempo.

Quando os destinatários ou os assinantes acessam um conjunto de dados de arquivos, eles acessam uma revisão específica do conjunto de dados. Essa estrutura permite que os provedores alterem os dados disponíveis nos conjuntos de dados ao longo do tempo, sem precisar se preocupar com alterações nos dados passados.

Quando destinatários ou assinantes acessam um conjunto de dados de API, eles acessam um conjunto de dados que contém ativos de API, que permitem que os assinantes façam chamadas de API para endpoints AWS Data Exchange gerenciados, que são então enviados por proxy para os endpoints do provedor.

Quando os destinatários ou os assinantes acessam um conjunto de dados do Amazon Redshift, eles acessam uma unidade de compartilhamento de dados do AWS Data Exchange para o Amazon Redshift. Essa unidade de compartilhamento de dados concede aos assinantes acesso somente leitura aos esquemas, tabelas, visualizações e funções definidas pelo usuário que o proprietário dos dados adicionou às unidades de compartilhamento de dados.

Quando destinatários ou assinantes acessam um conjunto de AWS Lake Formation dados de permissão de dados, eles acessam os bancos de dados, tabelas e/ou colunas marcadas com uma tag LF especificada pelo proprietário do conjunto de dados.

Quando os destinatários ou os assinantes acessam um conjunto de dados de acesso a dados do Amazon S3, eles recebem acesso somente leitura a objetos compartilhados do Amazon S3 hospedados nos buckets do Amazon S3 do provedor. Os destinatários ou os assinantes podem usar esses dados diretamente com outros Serviços da AWS.

Para criar, visualizar, atualizar ou excluir conjuntos de dados, os provedores podem usar o AWS Data Exchange console, a AWS CLI, seu próprio cliente REST ou um dos AWS SDKs. Para obter mais informações sobre o gerenciamento programático de conjuntos de AWS Data Exchange dados, consulte a Referência da AWS Data Exchange API.

Conjuntos de dados de propriedade

Um conjunto de dados pertence à conta que o criou. Os conjuntos de dados de propriedade podem ser identificados usando o parâmetro origin, que é definido como OWNED.

Conjuntos de dados autorizados

Conjuntos de dados autorizados são uma visualização somente leitura dos conjuntos de dados de propriedade de um remetente. Os conjuntos de dados autorizados são criados no momento da criação da concessão de dados ou na publicação do produto e disponibilizados aos destinatários ou aos assinantes que têm uma concessão de dados ou uma assinatura ativa do produto. Os conjuntos de dados autorizados podem ser identificados usando o parâmetro origin, que é definido como ENTITLED.

Como destinatário, você pode visualizar e interagir com seus conjuntos de dados autorizados usando a AWS Data Exchange API ou no AWS Data Exchange console.

Como proprietário do conjunto de dados, você também tem acesso à visualização do conjunto de dados autorizado que os destinatários ou os assinantes veem. Você pode fazer isso usando a AWS Data Exchange API ou escolhendo o nome do conjunto de dados na concessão de dados ou na página do produto no AWS Data Exchange console.

Tipo do conjunto de dados

Os seguintes tipos de conjuntos de dados são compatíveis com AWS Data Exchange:

Conjunto de dados de arquivos

Um conjunto de dados Arquivos é um conjunto de dados que contém arquivos simples permitidos pelo Amazon S3.

Como destinatário ou assinante de dados, você pode exportar dados localmente (baixar no computador) ou para o bucket do Amazon S3.

Como proprietário do conjunto de dados, você pode importar qualquer tipo de arquivo simples do bucket do Amazon S3 e adicioná-lo ao conjunto de dados.

Conjunto de dados de API

Um conjunto de dados de API é um conjunto de dados que contém ativos de API. Os ativos de API permitem que destinatários ou assinantes façam chamadas de API para endpoints AWS Data Exchange gerenciados, que são então enviados por proxy para os endpoints do proprietário do conjunto de dados.

Como proprietário do conjunto de dados, você cria uma API no Amazon API Gateway e a adiciona ao conjunto de dados para licenciar o acesso à API na criação da concessão de dados ou na assinatura.

Conjunto de dados do Amazon Redshift

Um conjunto de dados do Amazon Redshift inclui compartilhamentos de dados para o Amazon AWS Data Exchange Redshift. Ao assinar um conjunto de dados com unidade de compartilhamento de dados, você é adicionado como consumidor da unidade de compartilhamento de dados. Isso concede acesso somente leitura a esquemas, tabelas, visualizações e funções definidas pelo usuário que o proprietário do conjunto de dados adicionou às unidades de compartilhamento de dados.

Como proprietário do conjunto de dados, é possível criar um banco de dados com base na unidade de compartilhamento de dados no Amazon Redshift e consultar dados em tempo real sem extrair, transformar e carregar arquivos. Você recebe automaticamente acesso à unidade de compartilhamento de dados quando a concessão de dados ou a assinatura é ativada e perde o acesso depois que a assinatura expira.

Como proprietário do conjunto de dados, você cria uma unidade de compartilhamento de dados no Amazon Redshift e a adiciona ao conjunto de dados para licenciar o acesso à unidade de compartilhamento de dados mediante criação da concessão de dados ou assinatura.

Conjunto de dados de acesso a dados do Amazon S3

Com AWS Data Exchange o acesso aos dados do Amazon S3, os destinatários ou assinantes dos dados podem acessar arquivos de dados de terceiros diretamente dos buckets Amazon S3 dos proprietários do conjunto de dados.

Quando você assina um produto AWS Data Exchange de acesso a dados do Amazon S3, AWS Data Exchange automaticamente faz o seguinte:

  • Provisiona um ponto de acesso Amazon S3. O Ponto de Acesso Amazon S3 é um recurso do Amazon S3 que simplifica o compartilhamento de dados para um bucket do Amazon S3.

  • Atualiza as políticas de recursos do Ponto de Acesso S3 para conceder acesso de somente leitura.

Com AWS Data Exchange o Amazon S3, os proprietários de conjuntos de dados podem compartilhar o acesso direto a um bucket inteiro do Amazon S3 ou a prefixos específicos e objetos do Amazon S3. Além disso, AWS Data Exchange pode ser usado para gerenciar automaticamente concessões de dados, assinaturas, direitos, faturamento e pagamentos.

AWS Lake Formation conjunto de dados (pré-visualização)

Um conjunto AWS Lake Formation de dados é um conjunto de dados que contém ativos AWS Lake Formation de permissão de dados.

Como destinatário ou assinante de dados, você pode gerenciar os dados disponibilizados no AWS Lake Formation. Depois de criar links de recursos no seu AWS Lake Formation, você pode consultar os dados usando serviços de análise como o Amazon Athena.

Como proprietário do conjunto de dados, você marca seus dados usando tags LF AWS Lake Formation e importa essas tags como ativos ao criar seu conjunto de dados.

Regiões da AWS e conjuntos de dados

Seus conjuntos de dados podem estar em qualquer suporte Região da AWS, mas todos os conjuntos de dados em uma única concessão de dados ou produto devem estar no mesmo Região da AWS.

Estrutura do conjunto de dados

Os conjuntos de dados têm os seguintes parâmetros:

  • Name — O nome do conjunto de dados. Esse valor pode ter até 256 caracteres.

  • Description — Uma descrição do conjunto de dados. Esse valor pode ter até 16.348 caracteres.

  • AssetType — Define o tipo de ativos que o conjunto de dados contém.

  • Origin — Uma propriedade que define o conjunto de dados como Owned pela conta (para provedores) ou Entitled para a conta (para assinantes).

  • Id — Um ID que identifica exclusivamente o conjunto de dados. Os IDs do conjunto de dados são gerados na criação do conjunto de dados. Os conjuntos de dados autorizados têm um ID diferente do conjunto de dados de propriedade original.

  • Arn— Um identificador exclusivo para o nome AWS de um recurso.

  • CreatedAt e UpdatedAt — Data e marcação de data e hora da criação e última atualização do conjunto de dados.

nota

Como proprietário do conjunto de dados, é possível alterar algumas propriedades dos conjuntos de dados de propriedade, como o Nome ou a Descrição. A atualização de propriedades em um conjunto de dados próprio não atualizará as propriedades no conjunto de dados autorizado correspondente.

exemplo recurso de conjunto de dados
{ "Origin": "OWNED", "AssetType": "S3_SNAPSHOT", "Name": "MyDataSetName", "CreatedAt": "2019-09-09T19:31:49.704Z", "UpdatedAt": "2019-09-09T19:31:49.704Z", "Id": "fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Arn": "arn:aws:dataexchange:us-east-2:123456789109:data-sets/fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Description": "This is my data set's description that describes the contents of the data set." }

Melhores práticas de conjunto de dados

Como proprietário do conjunto de dados, ao criar e atualizar conjuntos de dados, tenha em mente as seguintes práticas recomendadas:

  • O nome do conjunto de dados fica visível nos detalhes da concessão de dados ou do produto no catálogo. Recomendamos escolher um nome conciso e descritivo para que os clientes entendam facilmente o conteúdo do conjunto de dados.

  • A descrição fica visível para os destinatários ou os assinantes que têm uma concessão de dados ou uma assinatura ativa do produto. Recomendamos que você inclua informações de cobertura e os recursos e benefícios do conjunto de dados.

Tags

É possível adicionar tags aos conjuntos de dados de propriedade e às revisões. Ao usar a marcação, você também pode usar o controle de acesso baseado em tags nas políticas AWS Identity and Access Management (IAM) para controlar o acesso a esses conjuntos de dados e revisões.

Os conjuntos de dados autorizados não podem ser marcados. As tags dos conjuntos de dados de propriedade e suas revisões não são propagadas para as versões autorizadas correspondentes. Especificamente, os destinatários ou os assinantes, que têm acesso somente leitura aos conjuntos de dados e revisões autorizados, não verão as tags do conjunto de dados original de propriedade.

nota

Atualmente, ativos e trabalhos não são compatíveis com tags.