Datos en AWS Data Exchange - AWS Data Exchange Guía del usuario

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Datos en AWS Data Exchange

Los datos se organizan AWS Data Exchange mediante tres bloques de construcción:

Estos tres componentes constituyen la base del producto que se administra mediante la AWS Data Exchange consola o la AWS Data Exchange API.

Para crear, ver, actualizar o eliminar conjuntos de datos, puedes usar la AWS Data Exchange consola, el AWS Command Line Interface (AWS CLI), tu propio cliente REST o uno de los AWS SDK. Para obtener más información sobre la administración programática de AWS Data Exchange los conjuntos de datos, consulta la Referencia de la AWS Data Exchange API.

Activos

Los activos son los datos que contienen. AWS Data Exchange

El tipo de activo define cómo se suministran los datos al receptor o suscriptor a través de los conjuntos de datos y los productos que los contienen.

Un activo puede ser cualquiera de los elementos siguientes:

  • Un archivo almacenado en su ordenador local

  • Un archivo almacenado como un objeto en Amazon Simple Storage Service (Amazon S3)

  • Una API de REST creada en Amazon API Gateway

  • Un conjunto de datos de Amazon Redshift

  • Un permiso AWS Lake Formation de datos (vista previa)

  • Conjunto de datos de acceso a datos de Amazon S3

Estructura de los activos

Los activos tienen los parámetros siguientes:

  • DataSetId: ID del conjunto de datos que contiene el activo.

  • RevisionId: ID de la revisión que contiene el activo.

  • Id: ID único que se genera al crear el activo.

  • Arn— Un identificador único para el nombre AWS de un recurso.

  • CreatedAt y UpdatedAt: fecha y hora de la creación y la última actualización del activo.

  • AssetDetails: información sobre el activo.

  • AssetType: instantánea de un objeto de Amazon S3, una API de Amazon API Gateway, un conjunto de datos de Amazon Redshift o un conjunto de datos de Amazon S3.

ejemplo recurso de activo
{ "Name": "automation/cloudformation.yaml", "Arn": "arn:aws:dataexchange:us-east-1::data-sets/29EXAMPLE24b82c6858af3cEXAMPLEcf/revisions/bbEXAMPLE74c02f4745c660EXAMPLE20/assets/baEXAMPLE660c9fe7267966EXAMPLEf5", "Id": "baEXAMPLE660c9fe7267966EXAMPLEf5", "CreatedAt": "2019-10-17T21:31:29.833Z", "UpdatedAt": "2019-10-17T21:31:29.833Z", "AssetType": "S3_SNAPSHOT", "RevisionId": "bbEXAMPLE74c02f4745c660EXAMPLE20", "DataSetId": "29EXAMPLE24b82c6858af3cEXAMPLEcf", "AssetDetails": { "S3SnapshotAsset": { "Size": 9423 } } }

Tipos de activos

Conjunto de datos de archivos

Con archivos, los suscriptores pueden acceder a una copia del conjunto de datos como conjunto de datos con derechos y exportar los activos.

El propietario de un conjunto de datos puede importar y exportar archivos mediante la AWS Data Exchange consola, mediante programación mediante su propia aplicación REST o uno de los AWS SDK. AWS CLI Para obtener más información sobre la importación de activos de Amazon S3, consulte Importar activos desde un bucket de S3. Para obtener más información acerca de la exportación de activos, consulte Exportar activos a un bucket de S3.

Activos de API

Con los activos de API, los receptores o suscriptores pueden ver la API y descargar la especificación de la API como un conjunto de datos con derechos. También puede realizar llamadas a la API a los puntos finales AWS Data Exchange gestionados, que luego se envían mediante proxy a los puntos finales propietarios de la API.

El propietario de un conjunto de datos que tenga una API de Amazon API Gateway existente puede añadir un activo de API mediante la AWS Data Exchange consola, mediante programación a través del SDK AWS CLI o de uno de AWS ellos. Para obtener más información sobre la importación de activos de API, consulte Importar activos desde una API de Amazon API Gateway.

nota

Actualmente, la operación SendApiAsset no es compatible con los SDK siguientes:

  • AWS SDK for .NET

  • AWS SDK for C++

  • SDK para Java 2.x

Los propietarios de conjuntos de datos que no dispongan de una API existente de Amazon API Gateway deben crear una antes de agregar un activo de API a su producto. Para obtener más información, consulte Desarrollar una API de REST en API Gateway en la Guía para desarrolladores de Amazon API Gateway.

Activos de recurso compartido de datos de Amazon Redshift

Con los activos de recursos compartidos de datos de Amazon Redshift, los receptores pueden tener acceso de solo lectura para consultar los datos en Amazon Redshift sin necesidad de extraer, transformar y cargar datos.

Para obtener más información sobre los tipos de activos de recursos compartidos de datos en Amazon Redshift, consulte Importación de activos desde un recurso AWS Data Exchange compartido de datos para Amazon Redshift.

AWS Lake Formation permiso de datos (versión preliminar)

Con AWS Lake Formation los activos de permisos de datos, los destinatarios o suscriptores pueden acceder a todas las bases de datos, tablas o columnas asociadas a las etiquetas especificadas y consultarlas.

Los proveedores de conjuntos de datos deben crear y etiquetar sus datos antes de importar las etiquetas como parte de un activo de AWS Data Exchange . Para obtener más información sobre la importación de activos de permisos de datos de Lake Formation, consulte Importación de activos desde (vista previa) AWS Lake Formation.

Acceso a datos de Amazon S3

Con los activos de acceso a datos de Amazon S3, los receptores o suscriptores pueden acceder directamente a los datos del proveedor y usarlos sin necesidad de crear ni administrar copias de los datos. Los propietarios de conjuntos de datos pueden configurar AWS Data Exchange para Amazon S3 sobre sus buckets de Amazon S3 existentes con el fin de compartir el acceso directo a un bucket completo de Amazon S3 o a prefijos y objetos específicos de Amazon S3.

Revisiones

Una revisión es un contenedor para uno o más activos.

Las revisiones se utilizan para actualizar datos en Amazon S3. Por ejemplo, es posible agrupar una colección de archivos .csv o un solo archivo .csv y un diccionario para crear una revisión. A medida que haya nuevos datos disponibles, puede crear revisiones y agregar activos. Después de crear y finalizar la revisión mediante la consola de AWS Data Exchange , dicha revisión estará disponible inmediatamente para los suscriptores. Para obtener más información, consulte Publicar un producto nuevo.

Tenga en cuenta lo siguiente:

  • Para poder finalizarla, una revisión debe contener al menos un activo.

  • Es su responsabilidad asegurarse de que los activos sean correctos antes de finalizar las revisiones.

  • No es posible anular una revisión finalizada publicada en al menos una concesión de datos o producto de ningún modo. (Excepto mediante el proceso de revocación de la revisión)

  • Una vez finalizada la revisión, se publica automáticamente en sus concesiones de datos o productos.

Estructura de una revisión

Las revisiones tienen los parámetros siguientes:

  • DataSetId: ID del conjunto de datos que contiene la revisión.

  • Comment: comentario sobre la revisión. Este campo puede contener hasta 128 caracteres.

  • Finalized: true o false. Se utiliza para indicar si la revisión está finalizada.

  • Id: identificador único de la revisión generado al crearla.

  • Arn— Un identificador único para el nombre AWS de un recurso.

  • CreatedAt: marca de fecha y hora de creación de la revisión. Las revisiones con derechos se crean en el momento de la publicación.

  • UpdatedAt: marca de fecha y hora de la última actualización de la revisión.

  • Revoked: estado que indica que se ha revocado el acceso de los suscriptores a la revisión.

  • RevokedAt: marca de fecha y hora que indica cuándo se ha revocado el acceso de un suscriptor a la revisión.

  • RevocationComment: comentario obligatorio para informar a los suscriptores del motivo por el que se ha revocado su acceso a la revisión. La longitud mínima es de 10 caracteres. Este campo puede tener una longitud de entre 10 y 512 caracteres.

  • SourceID: ID de la revisión propia que corresponde a la revisión con derechos que se está visualizando. Se devuelve este parámetro cuando el propietario de una revisión consulta la copia con derechos de la revisión que le pertenece.

ejemplo recurso de revisión
{ "UpdatedAt": "2019-10-11T14:13:31.749Z", "DataSetId": "1EXAMPLE404460dc9b005a0d9EXAMPLE2f", "Comment": "initial data revision", "Finalized": true, "Id": "e5EXAMPLE224f879066f9999EXAMPLE42", "Arn": "arn:aws:dataexchange:us-east-1:123456789012:data-sets/1EXAMPLE404460dc9b005a0d9EXAMPLE2f/revisions/e5EXAMPLE224f879066f9999EXAMPLE42", "CreatedAt": "2019-10-11T14:11:58.064Z" }

Conjuntos de datos

Un conjunto de datos AWS Data Exchange es un conjunto de datos que puede cambiar con el tiempo.

Cuando los receptores o suscriptores acceden a un conjunto de datos de archivos, acceden a una revisión específica del conjunto de datos. Esta estructura permite a los proveedores cambiar los datos disponibles en los conjuntos de datos a lo largo del tiempo sin tener que preocuparse por los cambios realizados en los datos históricos.

Cuando los destinatarios o los suscriptores acceden a un conjunto de datos de la API, acceden a un conjunto de datos que contiene activos de la API, que permiten a los suscriptores realizar llamadas a las API a los puntos de AWS Data Exchange conexión gestionados, que luego se transmiten mediante proxy a los puntos finales del proveedor.

Cuando los receptores o suscriptores acceden a un conjunto de datos de Amazon Redshift, acceden a un recurso compartido de datos de AWS Data Exchange para Amazon Redshift. El recurso compartido de datos proporciona a los suscriptores acceso de solo lectura a esquemas, tablas, vistas y funciones definidas por el usuario que el propietario de datos haya agregado al recurso compartido de datos.

Cuando los destinatarios o suscriptores acceden a un conjunto de AWS Lake Formation datos de permisos de datos, acceden a las bases de datos, tablas o columnas etiquetadas con una etiqueta LF especificada por el propietario del conjunto de datos.

Cuando los receptores o suscriptores acceden a un conjunto de datos de acceso a datos de Amazon S3, se les concede acceso de solo lectura a los objetos de Amazon S3 compartidos alojados en los buckets de Amazon S3 del proveedor. Los receptores o suscriptores pueden usar estos datos directamente con otros Servicios de AWS.

Para crear, ver, actualizar o eliminar conjuntos de datos, los proveedores pueden usar la AWS Data Exchange consola, la AWS CLI, su propio cliente REST o uno de los AWS SDK. Para obtener más información sobre la administración programática de AWS Data Exchange los conjuntos de datos, consulta la referencia de la AWS Data Exchange API.

Conjuntos de datos propios

Un conjunto de datos es propiedad de la cuenta que lo haya creado. Los conjuntos de datos propios se pueden identificar utilizando el parámetro origin, que está establecido en OWNED.

Conjuntos de datos con derechos

Los conjuntos de datos con derechos son una vista de solo lectura de los conjuntos de datos propiedad de un remitente. Los conjuntos de datos con derechos se crean en el momento de la creación de concesiones de datos o publicación de productos y se ponen a disposición de los receptores o suscriptores que tienen una concesión de datos activos o suscripción activa al producto. Los conjuntos de datos con derechos se pueden identificar utilizando el parámetro origin, que está establecido en ENTITLED.

Como destinatario, puede ver los conjuntos de datos autorizados e interactuar con ellos mediante la AWS Data Exchange API o en la AWS Data Exchange consola.

Como propietario de conjunto de datos, también tiene acceso a la vista del conjunto de datos con derechos que ven los receptores o suscriptores. Puede hacerlo mediante la AWS Data Exchange API o eligiendo el nombre del conjunto de datos en la página de concesión de datos o del producto de la AWS Data Exchange consola.

Tipos de conjuntos de datos

Se admiten los siguientes tipos de conjuntos de datos AWS Data Exchange:

Conjunto de datos de archivos

Un conjunto de datos de archivos es un conjunto de datos que contiene archivos planos admitidos por Amazon S3.

Como receptor o suscriptor de datos, puede exportar datos de forma local (descargarlos a su ordenador) o a su bucket de Amazon S3.

Como propietario de conjunto de datos, puede importar cualquier tipo de archivo plano de su bucket de Amazon S3 y agregarlo al conjunto de datos.

Conjunto de datos de API

Un conjunto de datos de API es un conjunto de datos que contiene activos de API. Los activos de la API permiten a los destinatarios o suscriptores realizar llamadas a la API a los puntos de enlace AWS Data Exchange gestionados, que luego se transfieren mediante proxy a los puntos de enlace propietarios del conjunto de datos.

Como propietario de un conjunto de datos, debe crear una API en Amazon API Gateway y agregarla al conjunto de datos para obtener licencia de acceso a su API al momento de la creación o suscripción de la concesión de datos.

Conjunto de datos de Amazon Redshift

Un conjunto de datos de Amazon Redshift incluye datos AWS Data Exchange compartidos para Amazon Redshift. Cuando se suscribe a un conjunto de datos con recursos compartidos de datos, se le agrega como consumidor del recurso compartido de datos. Esto le proporciona acceso de solo lectura a esquemas, tablas, vistas y funciones definidas por el usuario que el propietario del conjunto de datos haya agregado al recurso compartido de datos.

Como propietario de un conjunto de datos, puede crear una base de datos a partir del recurso compartido de datos en Amazon Redshift y, a continuación, consultar datos activos sin necesidad de extraer, transformar ni cargar archivos. Se le concede automáticamente acceso al recurso compartido de datos cuando se activa su concesión de datos o suscripción y se le revoca el acceso cuando cualquier de estos caduque.

Como propietario de un conjunto de datos, debe crear un recurso compartido de datos en Amazon Redshift y agregarlo al conjunto de datos para conceder licencias de acceso a su recurso compartido de datos al crear la concesión de datos o suscripción.

Conjunto de datos de acceso a datos de Amazon S3

Con AWS Data Exchange el acceso a los datos de Amazon S3, los destinatarios o suscriptores de los datos pueden acceder a archivos de datos de terceros directamente desde los buckets de Amazon S3 de los propietarios de los conjuntos de datos.

Cuando se suscribe a un producto AWS Data Exchange de acceso a datos de Amazon S3, realiza AWS Data Exchange automáticamente lo siguiente:

  • Aprovisiona un punto de acceso de Amazon S3. Los puntos de acceso de Amazon S3 son una característica de Amazon S3 que simplifica el uso compartido de datos en un bucket de Amazon S3.

  • Actualiza las políticas de recursos de punto de acceso de S3 para concederle acceso de solo lectura.

Con AWS Data Exchange Amazon S3, los propietarios de conjuntos de datos pueden compartir el acceso directo a todo un bucket de Amazon S3 o a prefijos y objetos de Amazon S3 específicos. Además, se AWS Data Exchange puede utilizar para gestionar automáticamente las concesiones de datos, las suscripciones, los derechos, la facturación y los pagos.

AWS Lake Formation conjunto de datos (vista previa)

Un conjunto AWS Lake Formation de datos es un conjunto de datos que contiene activos AWS Lake Formation de permisos de datos.

Como receptor o suscriptor de datos, puede administrar los datos a su disposición en su AWS Lake Formation. Tras crear enlaces a recursos en su AWS Lake Formation cuenta, puede consultar los datos mediante servicios de análisis como Amazon Athena.

Como propietario de un conjunto de datos, etiqueta sus datos con etiquetas LF AWS Lake Formation e importa esas etiquetas como activos al crear su conjunto de datos.

Regiones de AWS y conjuntos de datos

Los conjuntos de datos pueden estar en cualquiera de los formatos compatibles Región de AWS, pero todos los conjuntos de datos de una única concesión de datos o producto deben estar en el mismo formato Región de AWS.

Estructura de conjunto de datos

Los conjuntos de datos tienen los parámetros siguientes:

  • Name: nombre del conjunto de datos. Este valor puede tener hasta 256 caracteres.

  • Description: descripción del conjunto de datos. Este valor puede tener hasta 16.348 caracteres.

  • AssetType: define el tipo de activos que contiene el conjunto de datos.

  • Origin: propiedad que define el conjunto de datos como Owned según la cuenta (para los proveedores) o Entitled para la cuenta (para los suscriptores).

  • Id: ID que identifica el conjunto de datos de forma exclusiva. Los ID de los conjuntos de datos se generan en el momento de la creación del conjunto de datos. Los conjuntos de datos con derechos tienen un ID distinto del que corresponde al conjunto de datos de propiedad original.

  • Arn— Un identificador único para el nombre AWS de un recurso.

  • CreatedAt y UpdatedAt: marcas de fecha y hora de la creación y la última actualización del conjunto de datos.

nota

Como propietario de un conjunto de datos, puede cambiar algunas propiedades de los conjuntos de datos propios, como el Nombre o la Descripción. La actualización de las propiedades de un conjunto de datos propio no actualiza las propiedades del conjunto de datos con derechos correspondiente.

ejemplo recurso de conjunto de datos
{ "Origin": "OWNED", "AssetType": "S3_SNAPSHOT", "Name": "MyDataSetName", "CreatedAt": "2019-09-09T19:31:49.704Z", "UpdatedAt": "2019-09-09T19:31:49.704Z", "Id": "fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Arn": "arn:aws:dataexchange:us-east-2:123456789109:data-sets/fEXAMPLE1fd9a5c8b0d2e6fEXAMPLEe1", "Description": "This is my data set's description that describes the contents of the data set." }

Prácticas recomendadas con conjuntos de datos

Como propietario de conjunto de datos, cuando cree y actualice conjuntos de datos, tenga en cuenta las siguientes prácticas recomendadas:

  • El nombre del conjunto de datos está visible en los detalles de la concesión de datos o producto en el catálogo. Recomendamos elegir un nombre descriptivo y conciso para que los clientes entiendan fácilmente el contenido del conjunto de datos.

  • La descripción está visible para los receptores o suscriptores que tienen una concesión de datos o suscripción activa. Le recomendamos que incluya la información sobre la cobertura y las características y ventajas del conjunto de datos.

Etiquetas

Puede agregar etiquetas a sus conjuntos de datos propios y sus revisiones. Cuando se utiliza el etiquetado, también se puede utilizar el control de acceso basado en etiquetas en las políticas AWS Identity and Access Management (IAM) para controlar el acceso a estos conjuntos de datos y sus revisiones.

Los conjuntos de datos con derechos no se pueden etiquetar. Las etiquetas de los conjuntos de datos propios y sus revisiones no se propagan a las versiones con derechos correspondientes. En concreto, los receptores o suscriptores, que tienen acceso de solo lectura a los conjuntos de datos y a las revisiones con derechos, no verán las etiquetas del conjunto de datos original de su propiedad.

nota

Actualmente, los activos y los trabajos no admiten etiquetas.