XGBoost-Algorithmus - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

XGBoost-Algorithmus

XGBoost (eXtreme Gradient Boosting) ist eine beliebte und effiziente Open-Source-Implementierung eines Baumalgorithmus mit Gradient Boosting. Gradient Boosting ist ein überwachter Lernalgorithmus, der versucht, eine Zielvariable genau vorherzusagen, indem Schätzungen aus einer Menge einfacherer und schwächerer Modelle kombiniert werden. Der XGBoost-Algorithmus ist aufgrund seiner robusten Verarbeitung zahlreicher Datentypen, Beziehungen und Verteilungen und der Vielzahl von optimierbaren Hyperparametern gut für Machine Learning-Wettbewerbe geeignet. Sie können XGBoost für Regressions-, Binär- und Multiclass-Klassifizierungs- und Ranglistenprobleme verwenden.

Sie können die neue Version des XGBoost-Algorithmus entweder als integrierten Amazon SageMaker -Algorithmus oder als Framework verwenden, um Trainingsskripts in Ihren lokalen Umgebungen auszuführen. Diese Implementierung bietet einen kleineren Speicherbedarf, eine bessere Protokollierung, eine verbesserte Hyperparameter-Validierung und einen größeren Satz von Metriken als die ursprünglichen Versionen. Sie bietet auch einen XGBoost estimator, der ein Trainingsskript in einer verwalteten XGBoost-Umgebung ausführt. Die aktuelle Version von SageMaker XGBoost basiert auf den ursprünglichen XGBoost-Versionen 1.0, 1.2, 1.3, 1.5 und 1.7.

Unterstützte Versionen

  • Framework-Modus (Open Source): 1.0-1, 1.2-1, 1.2-2, 1.3-1, 1.5-1, 1.7-1

  • Algorithmusmodus: 1.0-1, 1.2-1, 1.2-2, 1.3-1, 1.5-1, 1.7-1

Warnung

Aufgrund der erforderlichen Rechenkapazität ist Version 1.7-1 von SageMaker XGBoost nicht mit GPU-Instances aus der P2-Instance-Familie für Training oder Inferenz kompatibel.

Wichtig

Wenn Sie den SageMaker XGBoost-Image-URI abrufen, verwenden Sie nicht :latest oder :1 für das Image-URI-Tag. Sie müssen einen der angebenUnterstützte Versionen, um den von verwalteten XGBoost SageMaker-Container mit der nativen XGBoost-Paketversion auszuwählen, die Sie verwenden möchten. Informationen zur Paketversion, die in die SageMaker XGBoost-Container migriert wurde, finden Sie unter Docker-Registrierungspfade und Beispielcode AWS-Region, wählen Sie Ihr aus und navigieren Sie zum Abschnitt XGBoost (Algorithmus).

Warnung

Die XGBoost-Versionen 0.90 sind veraltet. Der Support für Sicherheitsupdates oder Bugfixes für XGBoost 0.90 wird eingestellt. Es wird dringend empfohlen, die XGBoost-Version auf eine der neueren Versionen zu aktualisieren.

Anmerkung

XGBoost v1.1 wird auf nicht unterstützt, SageMaker da XGBoost 1.1 nicht in der Lage ist, Vorhersagen auszuführen, wenn die Testeingabe weniger Features hat als die Trainingsdaten in LIBSVM-Eingaben. Diese Funktion wurde in XGBoost v1.2 wiederhergestellt. Erwägen Sie die Verwendung SageMaker von XGBoost 1.2-2 oder höher.

So verwenden Sie SageMaker XGBoost

Mit können SageMakerSie XGBoost als integrierten Algorithmus oder Framework verwenden. Durch die Verwendung von XGBoost als Framework erhalten Sie mehr Flexibilität und Zugriff auf erweiterte Szenarien, z. B. k-fold-Kreuzvalidierung, da Sie Ihre eigenen Trainingsskripts anpassen können. In den folgenden Abschnitten wird die Verwendung von XGBoost mit dem SageMaker Python SDK beschrieben. Informationen zur Verwendung von XGBoost über die Amazon SageMaker Studio Classic-Benutzeroberfläche finden Sie unter SageMaker JumpStart.

  • Verwenden von XGBoost als Framework

    Sie können XGBoost als Framework zum Ausführen angepasster Trainingsskripts verwenden, die eine zusätzliche Datenverarbeitung in Ihre Trainingsaufgaben integrieren können. Im folgenden Codebeispiel finden Sie heraus, wie SageMaker Python SDK die XGBoost-API als Framework auf die gleiche Weise bereitstellt, wie es andere Framework-APIs bereitstellt, z. B. TensorFlow, MXNet und PyTorch.

    import boto3 import sagemaker from sagemaker.xgboost.estimator import XGBoost from sagemaker.session import Session from sagemaker.inputs import TrainingInput # initialize hyperparameters hyperparameters = { "max_depth":"5", "eta":"0.2", "gamma":"4", "min_child_weight":"6", "subsample":"0.7", "verbosity":"1", "objective":"reg:squarederror", "num_round":"50"} # set an output path where the trained model will be saved bucket = sagemaker.Session().default_bucket() prefix = 'DEMO-xgboost-as-a-framework' output_path = 's3://{}/{}/{}/output'.format(bucket, prefix, 'abalone-xgb-framework') # construct a SageMaker XGBoost estimator # specify the entry_point to your xgboost training script estimator = XGBoost(entry_point = "your_xgboost_abalone_script.py", framework_version='1.7-1', hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), instance_count=1, instance_type='ml.m5.2xlarge', output_path=output_path) # define the data type and paths to the training and validation datasets content_type = "libsvm" train_input = TrainingInput("s3://{}/{}/{}/".format(bucket, prefix, 'train'), content_type=content_type) validation_input = TrainingInput("s3://{}/{}/{}/".format(bucket, prefix, 'validation'), content_type=content_type) # execute the XGBoost training job estimator.fit({'train': train_input, 'validation': validation_input})

    Ein end-to-end Beispiel für die Verwendung von SageMaker XGBoost als Framework finden Sie unter Regression mit Amazon SageMaker XGBoost

  • Verwenden von XGBoost als integrierten Algorithmus

    Sie können den integrierten XGBoost-Algorithmus zur Erstellung eines XGBoost-Trainingscontainers verwenden wie im folgenden Codebeispiel gezeigt. Sie können den Image-URI des integrierten XGBoost-Algorithmus automatisch mithilfe der SageMaker image_uris.retrieve -API (oder der -get_image_uriAPI bei Verwendung von Amazon SageMaker Python SDK Version 1) erkennen. Wenn Sie überprüfen möchten, ob die image_uris.retrieve-API den richtigen URI findet, navigieren Sie zu Allgemeine Parameter für integrierte Algorithmen und suchen in der vollständigen Liste der Image-URIs integrierter Algorithmen und verfügbaren Regionen nach xgboost.

    Nachdem Sie den XGBoost-Image-URI angegeben haben, können Sie den XGBoost-Container verwenden, um mithilfe der SageMaker Schätzer-API einen Schätzer zu erstellen und einen Trainingsauftrag zu initiieren. Dieser integrierte XGBoost-Algorithmusmodus integriert nicht Ihr XGBoost-Trainingsskript und wird direkt auf den Eingabedatensätzen ausgeführt.

    Wichtig

    Wenn Sie den SageMaker XGBoost-Image-URI abrufen, verwenden Sie nicht :latest oder :1 für das Image-URI-Tag. Sie müssen einen der angebenUnterstützte Versionen, um den von verwalteten XGBoost SageMaker-Container mit der nativen XGBoost-Paketversion auszuwählen, die Sie verwenden möchten. Informationen zur Paketversion, die in die SageMaker XGBoost-Container migriert wurde, finden Sie unter Docker-Registrierungspfade und Beispielcode AWS-Region, wählen Sie Ihr aus und navigieren Sie zum Abschnitt XGBoost (Algorithmus).

    import sagemaker import boto3 from sagemaker import image_uris from sagemaker.session import Session from sagemaker.inputs import TrainingInput # initialize hyperparameters hyperparameters = { "max_depth":"5", "eta":"0.2", "gamma":"4", "min_child_weight":"6", "subsample":"0.7", "objective":"reg:squarederror", "num_round":"50"} # set an output path where the trained model will be saved bucket = sagemaker.Session().default_bucket() prefix = 'DEMO-xgboost-as-a-built-in-algo' output_path = 's3://{}/{}/{}/output'.format(bucket, prefix, 'abalone-xgb-built-in-algo') # this line automatically looks for the XGBoost image URI and builds an XGBoost container. # specify the repo_version depending on your preference. xgboost_container = sagemaker.image_uris.retrieve("xgboost", region, "1.7-1") # construct a SageMaker estimator that calls the xgboost-container estimator = sagemaker.estimator.Estimator(image_uri=xgboost_container, hyperparameters=hyperparameters, role=sagemaker.get_execution_role(), instance_count=1, instance_type='ml.m5.2xlarge', volume_size=5, # 5 GB output_path=output_path) # define the data type and paths to the training and validation datasets content_type = "libsvm" train_input = TrainingInput("s3://{}/{}/{}/".format(bucket, prefix, 'train'), content_type=content_type) validation_input = TrainingInput("s3://{}/{}/{}/".format(bucket, prefix, 'validation'), content_type=content_type) # execute the XGBoost training job estimator.fit({'train': train_input, 'validation': validation_input})

    Weitere Informationen zum Einrichten von XGBoost als integriertem Algorithmus finden Sie in den folgenden Notebook-Beispielen.

E/A-Schnittstelle für den XGBoost-Algorithmus

Gradient Boosting arbeitet mit tabellarischen Daten, wobei die Zeilen die Beobachtungen repräsentieren, eine Spalte die Zielvariable oder die Kennzeichnung darstellt und die verbleibenden Spalten die Funktionen.

Die SageMaker Implementierung von XGBoost unterstützt die folgenden Datenformate für Training und Inferenz:

  • text/libsvm (Standard)

  • text/csv

  • application/x-parquet

  • Anwendung/x-recordio-protobuf

Anmerkung

In Bezug auf Training und Inferenz sind einige Überlegungen zu beachten:

  • Für eine höhere Leistung empfehlen wir die Verwendung von XGBoost mit dem Dateimodus , in dem Ihre Daten aus Amazon S3 auf den Trainings-Instance-Volumes gespeichert werden.

  • Für Schulungen mit spaltenförmiger Eingabe geht der Algorithmus davon aus, dass es sich bei der Zielvariablen (Label) um die erste Spalte handelt. Bei der Inferenz geht der Algorithmus davon aus, dass die Eingabe keine Kennzeichnungsspalte hat.

  • Bei CSV-Daten sollte die Eingabe keinen Header-Datensatz enthalten.

  • Für die LIBSVM-Schulung geht der Algorithmus davon aus, dass die nachfolgenden Spalten nach der Labelspalte die auf Null basierenden Indexwertpaare für Features enthalten. Folglich hat jede Zeile das Format: : <label> <index0>:<value0> <index1>:<value1>.

  • Informationen zu Instance-Typen und verteilter Schulung finden Sie unter EC2-Instance-Empfehlung für den XGBoost-Algorithmus.

Beim CSV-Eingabemodus für Schulungen muss der für den Algorithmus verfügbare Gesamtspeicher (Instance-Zählung *verfügbarer Speicher im InstanceType) in der Lage sein, den Schulungsdatensatz aufzunehmen. Für den libsvm-Schulungseingabemodus ist dies nicht erforderlich, aber empfehlenswert.

Für v1.3-1 und höher speichert SageMaker XGBoost das Modell im internen XGBoost-Binärformat mit Booster.save_model. Frühere Versionen verwenden das Python-Pickle-Modul, um das Modell zu serialisieren/deserialisieren.

Anmerkung

Beachten Sie die Versionen, wenn Sie ein SageMaker XGBoost-Modell in Open-Source-XGBoost verwenden. Versionen 1.3-1 und höher verwenden das interne XGBoost-Binärformat, während frühere Versionen das Python-Pickle-Modul verwenden.

So verwenden Sie ein mit SageMaker XGBoost v1.3-1 oder höher trainiertes Modell in Open-Source-XGBoost
  • Verwenden Sie den folgenden Python-Code:

    import xgboost as xgb xgb_model = xgb.Booster() xgb_model.load_model(model_file_path) xgb_model.predict(dtest)
So verwenden Sie ein Modell, das mit früheren Versionen von SageMaker XGBoost in Open-Source-XGBoost trainiert wurde
  • Verwenden Sie den folgenden Python-Code:

    import pickle as pkl import tarfile t = tarfile.open('model.tar.gz', 'r:gz') t.extractall() model = pkl.load(open(model_file_path, 'rb')) # prediction with test data pred = model.predict(dtest)
Zur Differenzierung der Bedeutung von markierten Datenpunkten verwenden Sie die Instance-Gewichtungsunterstützung.
  • SageMaker XGBoost ermöglicht es Kunden, die Bedeutung von beschrifteten Datenpunkten zu unterscheiden, indem jeder Instance ein Gewichtungswert zugewiesen wird. Für text/libsvm-Eingaben können Kunden Daten-Instances Gewichtungswerte zuweisen, indem Sie sie nach den Bezeichnungen anfügen. Beispiel: label:weight idx_0:val_0 idx_1:val_1... Für text/csv-Eingaben müssen Kunden das csv_weights-Flag in den Parametern aktivieren und Gewichtungswerte in der Spalte nach den Bezeichnungen anfügen. Beispiel: label,weight,val_0,val_1,...).

EC2-Instance-Empfehlung für den XGBoost-Algorithmus

SageMaker XGBoost unterstützt CPU- und GPU-Training und Inferenz. Die Instance-Empfehlungen hängen von den Schulungs- und Inferenzanforderungen sowie von der Version des XGBoost-Algorithmus ab. Wählen Sie eine der folgenden Optionen aus, um mehr Informationen zu erhalten:

Training

Der SageMaker XGBoost-Algorithmus unterstützt CPU- und GPU-Training.

CPU-Schulung

SageMaker XGBoost 1.0-1 oder früher trainiert nur mit CPUs . Es handelt sich um einen speichergebundenen Algorithmus (im Gegensatz zu einem rechnergebundenen). Daher ist eine Allzweck-Datenverarbeitungs-Instance (z. B. M5) die bessere Wahl gegenüber einer rechneroptimierten Instance (z. B. C4). Des Weiteren empfehlen wir, dass Sie in ausgewählten Instances genügend Gesamtspeicher zur Verfügung haben, um die Trainingsdaten aufzunehmen. Obwohl es die Verwendung von Festplattenspeicherplatz unterstützt, um Daten zu verarbeiten, die nicht in den Hauptspeicher passen (die out-of-core Funktion, die im libsvm-Eingabemodus verfügbar ist), verlangsamt das Schreiben von Cache-Dateien auf die Festplatte die Algorithmusverarbeitungszeit.

GPU-Schulung

SageMaker XGBoost Version 1.2-2 oder höher unterstützt GPU-Training. Trotz höherer Kosten pro Instance trainieren GPUs schneller und sind damit kostengünstiger.

SageMaker XGBoost Version 1.2-2 oder höher unterstützt die GPU-Instance-Familien P2, P3, G4dn und G5.

SageMaker XGBoost Version 1.7-1 oder höher unterstützt die GPU-Instance-Familien P3, G4dn und G5. Beachten Sie, dass Version 1.7-1 oder höher aufgrund von Rechenkapazitätsanforderungen die P2-Instance-Familie nicht unterstützt.

Um die Vorteile des GPU-Trainings zu nutzen, geben Sie den Instance-Typ als eine der GPU-Instances an (z. B. P3) und setzen Sie den tree_method Hyperparameter in Ihrem vorhandenen XGBoost-Skript auf gpu_hist.

Verteilte Schulungen

SageMaker XGBoost unterstützt CPU- und GPU-Instances für verteiltes Training.

Verteilte GPU-Schulung

Um die CPU-Schulung auf mehreren Instances auszuführen, setzen Sie den instance_count Parameter für die Schätzfunktion auf einen Wert größer als eins. Die Eingabedaten müssen auf die Gesamtzahl der Instances aufgeteilt werden.

Teilen Sie die Eingabedaten auf mehrere Instances auf

Teilen Sie die Eingabedaten mithilfe der folgenden Schritte auf:

  1. Teilen Sie die Eingabedaten in kleinere Dateien auf. Die Anzahl der Dateien sollte mindestens der Anzahl der Instances entsprechen, die für verteilte Schulungen verwendet werden. Durch die Verwendung mehrerer kleinerer Dateien im Gegensatz zu einer großen Datei wird auch die Zeit für das Herunterladen von Daten für den Schulungsauftrag verringert.

  2. Legen Sie beim Erstellen Ihres den TrainingInputVerteilungsparameter auf festShardedByS3Key. Dieser Parameter stellt sicher, dass jede Instanz ungefähr 1/n der Anzahl der Dateien in S3 erhält, wenn im Schulungsauftrag n Instances angegeben sind.

Verteilte GPU-Schulung

Sie können verteilte Schulungen entweder mit einer oder mehreren GPU-Instances verwenden.

Verteilte Schulung mit Einzel-GPU-Instances

Die SageMaker XGBoost-Versionen 1.2-2 bis 1.3-1 unterstützen nur Einzel-GPU-Instance-Training. Das bedeutet, dass selbst wenn Sie eine Multi-GPU-Instance auswählen, nur eine GPU pro Instance verwendet wird.

Wenn Sie die XGBoost-Versionen 1.2-2 bis 1.3-1 verwenden oder wenn Sie keine Multi-GPU-Instances verwenden müssen, müssen Sie Ihre Eingabedaten auf die Gesamtzahl der Instances aufteilen. Weitere Informationen finden Sie unter Teilen Sie die Eingabedaten auf mehrere Instances auf.

Anmerkung

Die Versionen 1.2-2 bis 1.3-1 von SageMaker XGBoost verwenden nur eine GPU pro Instance, auch wenn Sie eine Instance mit mehreren GPUs wählen.

Verteilte Schulungen mit Einzel-GPU-Instances

Ab Version 1.5-1 bietet SageMaker XGBoost verteiltes GPU-Training mit Dask . Mit Dask können Sie alle GPUs nutzen, wenn Sie eine oder mehrere Multi-GPU-Instances verwenden. Dask funktioniert auch bei der Verwendung von Single-GPU-Instances.

Trainieren Sie mit Dask und gehen Sie dazu wie folgt vor:

  1. Lassen Sie entweder den distribution Parameter in Ihrem weg TrainingInput oder setzen Sie ihn auf FullyReplicated.

  2. Stellen Sie bei der Definition Ihrer Hyperparameter use_dask_gpu_training bis "true" ein.

Wichtig

Die verteilte Schulung mit Dask unterstützt nur die Eingabeformate CSV und Parquet. Wenn Sie andere Datenformate wie LIBSVM oder PROTOBUF verwenden, schlägt der Schulungsauftrag fehl.

Stellen Sie bei Parquet-Daten sicher, dass die Spaltennamen als Zeichenfolgen gespeichert werden. Spalten, die Namen anderer Datentypen haben, können nicht geladen werden.

Wichtig

Die verteilte Schulung mit Dask unterstützt den Pipe-Modus nicht. Wenn der Pipe-Modus angegeben ist, schlägt der Schulungsauftrag fehl.

Beim Training von SageMaker XGBoost mit Dask sind einige Überlegungen zu beachten. Achten Sie darauf, Ihre Daten in kleinere Dateien aufzuteilen. Dask liest jede Parquet-Datei als Partition. Für jede GPU gibt es einen Dask-Worker, daher sollte die Anzahl der Dateien größer sein als die Gesamtzahl der GPUs (Anzahl der Instances x Anzahl der GPUs pro Instance). Eine sehr große Anzahl von Dateien kann auch die Leistung beeinträchtigen. Weitere Informationen finden Sie unter Bewährte Methoden für Dask.

Variationen in der Ausgabe

Der angegebene tree_method Hyperparameter bestimmt den Algorithmus, der für die XGBoost-Schulung verwendet wird. Bei den Baummethoden approx, hist und gpu_hist handelt es sich allesamt um Näherungsmethoden, bei denen das Skizzieren zur Quantilberechnung verwendet wird. Weitere Informationen finden Sie unter Baummethoden in der MySQL-Dokumentation. Beim Skizzieren handelt es sich um einen Näherungsalgorithmus. Daher ist mit Abweichungen im Modell zu rechnen, die von Faktoren wie der Anzahl der Mitarbeiter abhängen, die für verteilte Schulungen ausgewählt wurden. Die Signifikanz der Variation ist datenabhängig.

Inferenz

SageMaker XGBoost unterstützt CPU- und GPU-Instances für Inferenzen. Informationen zu den Instance-Typen für Inferenzen finden Sie unter Amazon SageMaker ML-Instance-Typen.

XGBoost-Beispiel-Notebooks

Die folgende Tabelle beschreibt eine Vielzahl von Beispiel-Notebooks, die sich mit verschiedenen Anwendungsfällen des Amazon- SageMaker XGBoost-Algorithmus befassen.

Titel des Notebooks Beschreibung

Wie erstelle ich einen benutzerdefinierten XGBoost-Container?

Dieses Notebook zeigt Ihnen, wie Sie einen benutzerdefinierten XGBoost-Container mit Amazon SageMaker Batch Transform erstellen.

Regression mit XGBoost unter Verwendung von Parquet

Dieses Notebook zeigt Ihnen, wie Sie den Abalone-Datensatz in Parquet verwenden, um ein XGBoost-Modell zu trainieren.

Wie trainiert und hostet man ein Mehrklassen-Klassifizierungsmodell?

In diesem Notebook wird gezeigt, wie der MNIST-Datensatz verwendet wird, um ein Mehrklassen-Klassifizierungsmodell zu trainieren und zu hosten.

Wie trainiert man ein Modell für die Vorhersage der Kundenabwanderung?

In diesem Notebook erfahren Sie, wie Sie ein Modell so trainieren, dass es die Abwanderung mobiler Kunden vorhersagt, um unzufriedene Kunden zu identifizieren.

Eine Einführung in die Amazon SageMaker Managed Spot-Infrastruktur für XGBoost Training

Dieses Notebook zeigt Ihnen, wie Sie Spot-Instances für Schulungen mit einem XGBoost-Container verwenden.

Wie verwendet man Amazon SageMaker Debugger zum Debuggen von XGBoost-Trainingsaufträgen?

Dieses Notebook zeigt Ihnen, wie Sie Amazon SageMaker Debugger verwenden, um Trainingsaufträge zu überwachen und mithilfe integrierter Debugging-Regeln Inkonsistenzen zu erkennen.

Wie verwendet man Amazon SageMaker Debugger zum Debuggen von XGBoost-Trainingsaufträgen in Echtzeit?

Dieses Notebook zeigt Ihnen, wie Sie den MNIST-Datensatz und Amazon SageMaker Debugger verwenden, um XGBoost-Trainingsaufträge in Echtzeit zu analysieren, während Trainingsaufträge ausgeführt werden.

Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instances, mit denen Sie das Beispiel in ausführen können SageMaker, finden Sie unter Amazon SageMaker Notebook-Instances. Nachdem Sie eine Notebook-Instance erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker Beispiele, um eine Liste aller SageMaker Beispiele anzuzeigen. Die Beispiel-Notebooks zur Themenmodellierung unter Verwendung des Algorithmus für lineares Lernen finden Sie im Abschnitt Einführung in die Amazon-Algorithmen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Verwenden und dann Kopie erstellen aus.