Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Per eseguire i Feature Processor su set di dati di grandi dimensioni che richiedono hardware più potente di quello disponibile localmente, puoi decorare il codice con il @remote
decoratore per eseguire il codice Python locale come processo di formazione distribuito a uno o più nodi SageMaker . Per ulteriori informazioni sull'esecuzione del codice come processo di SageMaker formazione, consulta. Esegui il tuo codice locale come processo SageMaker di formazione
Di seguito è riportato un esempio di utilizzo del decoratore @remote
insieme al decoratore @feature_processor
.
from sagemaker.remote_function.spark_config import SparkConfig
from sagemaker.remote_function import remote
from sagemaker.feature_store.feature_processor import CSVDataSource, feature_processor
CSV_DATA_SOURCE = CSVDataSource('s3://bucket/prefix-to-csv/')
OUTPUT_FG = 'arn:aws:sagemaker:us-east-1:123456789012:feature-group/feature-group'
@remote(
spark_config=SparkConfig(),
instance_type="ml.m5.2xlarge",
dependencies="/local/requirements.txt"
)
@feature_processor(
inputs=[CSV_DATA_SOURCE],
output=OUTPUT_FG,
)
def transform(csv_input_df):
return csv_input_df
transform()
Il parametro spark_config
indica che il processo remoto viene eseguito come applicazione Spark. L'SparkConfig
istanza può essere utilizzata per configurare la configurazione Spark e fornire dipendenze aggiuntive all'applicazione Spark, come file e file Python. JARs
Per iterazioni più rapide durante lo sviluppo del codice di elaborazione delle funzionalità, puoi specificare l'argomento keep_alive_period_in_seconds
nel decoratore @remote
per mantenere le risorse configurate in un warm pool per i successivi processi di addestramento. Per ulteriori informazioni sui warm pool, consulta KeepAlivePeriodInSeconds
nella guida di riferimento delle API.
Il seguente codice è un esempio di requirements.txt:
locale
sagemaker>=2.167.0
Questo installerà la versione SageMaker AI SDK corrispondente nel job remoto, necessaria per l'esecuzione del metodo annotato da. @feature-processor