Classe FillMissingValues - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Classe FillMissingValues

La classe FillMissingValues individua i valori null e stringhe vuote in un DynamicFrame specificato e utilizza metodi di machine learning, come la regressione lineare e la foresta casuale, per prevedere i valori mancanti. Il processo ETL utilizza i valori nel set di dati di input per addestrare il modello di machine learning, che prevede quindi quali devono essere i valori mancanti.

Suggerimento

Se si utilizzano set di dati incrementali, ogni set incrementale viene utilizzato come dati di addestramento per il modello di machine learning, pertanto i risultati potrebbero non essere molto accurati.

Per l'importazione:

from awsglueml.transforms import FillMissingValues

Metodi

apply(frame, missing_values_column, output_column ="", transformation_ctx ="", info ="", stageThreshold = 0, totalThreshold = 0)

Riempie i valori mancanti di un frame dinamico in una colonna specificata e restituisce un frame dinamico con stime in una nuova colonna. Per le righe senza valori mancanti, il valore della colonna specificato viene duplicato nella nuova colonna.

  • frame il DynamicFrame in cui inserire i valori mancanti. Campo obbligatorio.

  • missing_values_column: la colonna contenente valori mancanti (valori null e stringhe vuote). Campo obbligatorio.

  • output_column: il nome della nuova colonna che conterrà i valori stimati per tutte le righe il cui valore era mancante. Facoltativo; il valore di default è il nome di missing_values_column con suffisso formato da "_filled".

  • transformation_ctx: una stringa univoca utilizzata per identificare informazioni sullo stato (opzionale).

  • info: una stringa associata a errori nella trasformazione (opzionale).

  • stageThreshold: il numero massimo di errori che si possono verificare nella trasformazione prima che venga arrestata (opzionale; il numero predefinito è zero).

  • totalThreshold: il numero massimo di errori che si possono verificare in totale prima che l'elaborazione venga arrestata (opzionale; il numero predefinito è zero).

Restituisce un nuovo DynamicFrame con una colonna aggiuntiva che contiene stime per le righe con valori mancanti e il valore attuale per le altre righe.