Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Amazon SageMaker Feature Store prend en charge les formats de table AWS Glue et Apache Iceberg pour le magasin hors ligne. Vous pouvez choisir le format du tableau lorsque vous créez un nouveau groupe de fonctionnalités. AWS Glue est le format par défaut.
Les données du magasin hors ligne Amazon SageMaker Feature Store sont stockées dans un compartiment Amazon S3 au sein de votre compte. Lorsque vous appelez PutRecord
, vos données sont mises en tampon, mises en lot et écrites dans Amazon S3 en moins de 15 minutes. Feature Store prend uniquement en charge le format de fichier Parquet lors de l'écriture de vos données dans votre magasin hors connexion. Plus précisément, lorsque vos données sont écrites dans votre magasin hors connexion, elles peuvent être récupérées de votre compartiment Amazon S3 au format Parquet. Chaque fichier peut contenir plusieurs Record
s.
Pour le format Iceberg, Feature Store enregistre les métadonnées du tableau dans le même compartiment Amazon S3 que celui que vous utilisez pour stocker les données du magasin hors ligne. Vous pouvez le trouver sous le préfixe metadata
.
Feature Store expose également le OfflineStoreConfig.S3. StorageConfig ResolvedOutputChamp S3Uri, qui se trouve dans l'appel d'DescribeFeatureGroupAPI. Il s'agit du chemin d'accès S3 sous lequel les fichiers du groupe de fonctions spécifique sont écrits.
Les champs supplémentaires suivants sont ajoutés par Feature Store à chaque enregistrement résidant dans le magasin hors connexion :
-
api_invocation_time : horodatage de l'instant où le service reçoit l'appel
PutRecord
ouDeleteRecord
. Si vous utilisez l'intégration gérée (par exemple Data Wrangler), il s'agit de l'horodatage de l'instant où les données ont été écrites dans la boutique hors ligne. -
write_time : horodatage de l'instant où les données ont été écrites dans la boutique hors ligne. Peut être utilisé pour créer des requêtes liées au déplacement dans le temps.
-
is_deleted –
False
par défaut. SiDeleteRecord
est appelé, un nouvelRecord
est inséré dansRecordIdentifierValue
et défini àTrue
dans la boutique hors ligne.
Structures d'URI de boutique hors ligne Amazon SageMaker Feature Store
Dans les exemples suivants, amzn-s3-demo-bucket
est le compartiment Amazon S3 figurant dans votre compte,
est votre exemple de préfixe, example-prefix
est votre ID de compte, 111122223333
est votre région et Région AWS
est le nom de votre groupe de fonctionnalités. feature-group-name
AWS Glue format de tableau
Les enregistrements du magasin hors ligne stockés au format de AWS Glue table sont partitionnés en fonction de l'heure de l'événement en partitions horaires. Vous ne pouvez pas configurer le schéma de partitionnement. La structure d'URI suivante montre l'organisation d'un fichier Parquet selon le format AWS Glue :
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Région AWS
/offline-store/feature-group-name
-feature-group-creation-time
/data/year=year
/month=month
/day=day
/hour=hour
/timestamp_of_latest_event_time_in_file
_16-random-alphanumeric-digits
.parquet
L'exemple suivant indique l'emplacement de sortie d'un fichier Parquet pour un fichier avec
comme feature-group-name
customer-purchase-history-patterns
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Région AWS
/offline-store/customer-purchase-history-patterns-1593511200/data/year=2020/month=06/day=31/hour=00/20200631T064401Z_108934320012Az11.parquet
Format de table Iceberg
Les enregistrements figurant dans le magasin hors connexion stocké au format de table Iceberg sont partitionnés par heure d'événement en partitions quotidiennes. Vous ne pouvez pas configurer le schéma de partitionnement. La structure d'URI suivante montre l'organisation des fichiers de données enregistrés au format de table Iceberg.
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Région AWS
/offline-store/feature-group-name
-feature-group-creation-time
/data/8-random-alphanumeric-digits
/event-time-feature-name
_trunc=event-time-year
-event-time-month
-event-time-day
/timestamp-of-latest-event-time-in-file_16-random-alphanumeric-digits.parquet
L'exemple suivant indique l'emplacement de sortie d'un fichier Parquet pour un fichier avec
comme feature-group-name
customer-purchase-history-patterns
, et le
est event-time-feature-name
EventTime
:
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Région AWS
/offline-store/customer-purchase-history-patterns-1593511200/data/0aec19ca/EventTime_trunc=2022-11-09/20221109T215231Z_yolTtpyuWbkaeGIl.parquet
L'exemple suivant est l'emplacement d'un fichier de métadonnées pour les fichiers de données enregistrés au format de table Iceberg.
s3://amzn-s3-demo-bucket/
example-prefix
/111122223333
/sagemaker/Région AWS
/offline-store/feature-group-name
-feature-group-creation-time
/metadata/