Esecuzione del processore di funzionalità Feature Store da remoto

Per eseguire i Feature Processor su set di dati di grandi dimensioni che richiedono hardware più potente di quello disponibile localmente, puoi decorare il codice con il @remote decoratore per eseguire il codice Python locale come processo di formazione distribuito a uno o più nodi SageMaker . Per ulteriori informazioni sull'esecuzione del codice come processo di SageMaker formazione, consulta. Esegui il tuo codice locale come processo SageMaker di formazione

Di seguito è riportato un esempio di utilizzo del decoratore @remote insieme al decoratore @feature_processor.


from sagemaker.remote_function.spark_config import SparkConfig
from sagemaker.remote_function import remote
from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor

CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/')
OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group'

@remote(
    spark_config=SparkConfig(), 
    instance_type="ml.m5.2xlarge",
    dependencies="/local/requirements.txt"
)
@feature_processor(
    inputs=[CSV_DATA_SOURCE], 
    output=OUTPUT_FG,
)
def transform(csv_input_df):
   return csv_input_df
   
transform()

Il parametro spark_config indica che il processo remoto viene eseguito come applicazione Spark. L'SparkConfigistanza può essere utilizzata per configurare la configurazione Spark e fornire dipendenze aggiuntive all'applicazione Spark, come file e file Python. JARs

Per iterazioni più rapide durante lo sviluppo del codice di elaborazione delle funzionalità, puoi specificare l'argomento keep_alive_period_in_seconds nel decoratore @remote per mantenere le risorse configurate in un warm pool per i successivi processi di addestramento. Per ulteriori informazioni sui warm pool, consulta KeepAlivePeriodInSeconds nella guida di riferimento delle API.

Il seguente codice è un esempio di requirements.txt: locale


sagemaker>=2.167.0

Questo installerà la versione SageMaker SDK corrispondente nel job remoto, necessaria per l'esecuzione del metodo annotato da. @feature-processor

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Feature Store Feature Processor SDK

Creazione ed esecuzione di pipeline del processore di funzionalità Feature Store