Schema für Einschränkungen (Datei constraints.json) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Schema für Einschränkungen (Datei constraints.json)

Eine constraints.json-Datei wird verwendet, um die Einschränkungen auszudrücken, die ein Datensatz erfüllen muss. Container von Amazon SageMaker Model Monitor können die Datei constraints.json verwenden, um Datensätze auszuwerten. Vorgefertigte Container bieten die Möglichkeit, die Datei constraints.json automatisch für ein Baseline-Dataset zu generieren. Wenn Sie Ihren eigenen Container mit ähnlichen Fähigkeiten bereitstellen oder Sie können die Datei constraints.json auf andere Weise erstellen. Hier ist das Schema für die Einschränkungsdatei, die der vorgefertigte Container verwendet. Beim Bereitstellen eigener Container kann das gleiche Format übernommen oder bei Bedarf erweitert werden.

{ "version": 0, "features": [ { "name": "string", "inferred_type": "Integral" | "Fractional" | | "String" | "Unknown", "completeness": number, "num_constraints": { "is_non_negative": boolean }, "string_constraints": { "domains": [ "list of", "observed values", "for small cardinality" ] }, "monitoringConfigOverrides": {} } ], "monitoring_config": { "evaluate_constraints": "Enabled", "emit_metrics": "Enabled", "datatype_check_threshold": 0.1, "domain_content_threshold": 0.1, "distribution_constraints": { "perform_comparison": "Enabled", "comparison_threshold": 0.1, "comparison_method": "Simple"||"Robust", "categorical_comparison_threshold": 0.1, "categorical_drift_method": "LInfinity"||"ChiSquared" } } }

Das monitoring_config Objekt enthält Optionen für die Überwachung des Auftrages für die Funktion. In der folgenden Tabelle werden die einzelnen Optionen beschrieben.

Überwachung von Beschränkungen
Constraint Beschreibung
evaluate_constraints

Wenn Enabled, wird ausgewertet, ob das zu analysierende aktuelle Dataset die in der Datei constraints.json angegebenen Einschränkungen, die als Baseline dienen, erfüllt.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

emit_metrics

Bei Enabledgibt CloudWatch Metriken für die in der Datei enthaltenen Daten aus.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

datatype_check_threshold

Wenn der Schwellenwert den Wert des angegebenen datatype_check_threshold überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Wenn die Datentypen in der aktuellen Ausführung nicht mit dem Baseline-Dataset übereinstimmen, wird dieser Schwellenwert verwendet, um zu bewerten, ob er als Verletzung gekennzeichnet werden muss.

Während des Basisschritts schlagen die generierten Einschränkungen den abgeleiteten Datentyp für jede Spalte vor. Der Parameter datatype_check_threshold kann aktiviert werden, sodass der Schwellenwert angepasst wird, wenn er als Verletzung gekennzeichnet wird.

Gültige Werte: Gleitkommazahl..

Standard: 0.1

domain_content_threshold

Wenn für ein Zeichenfolgenfeld im aktuellen Dataset mehr unbekannte Werte vorhandne sind als im Baseline-Dataset, kann anhand dieses Schwellenwerts vorgeschrieben werden, wenn dies als Verletzung zu kennzeichnen ist.

Gültige Werte: Gleitkommazahl..

Standard: 0.1

distribution_constraints perform_comparison

Wenn Enabled, weist dieses Kennzeichen den Code an, einen Verteilungsvergleich zwischen der Basisverteilung und der für das aktuelle Dataset beobachteten Verteilung vorzunehmen.

Gültige Werte: Enabled oder Disabled.

Standard: Enabled

comparison_threshold

Wenn der Schwellenwert den für comparison_threshold festgelegten Wert überschreitet, verursacht dies einen Fehler, der im Bericht der Verstöße als Verstoß behandelt wird. Die Entfernung wird anhand der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen berechnet.

Gültige Werte: Gleitkommazahl..

Standard: 0.1

comparison_method

Ob linf_simple oder linf_robust berechnet werden soll. linf_simple basiert auf der maximalen absoluten Differenz zwischen den kumulativen Verteilungsfunktionen zweier Verteilungen. Die Berechnung von linf_robust basiert auf linf_simple, wird aber verwendet, wenn nicht genügend Stichproben vorhanden sind. Die linf_robust-Formel basiert auf dem Kolmogorov-Smirnov-Test mit zwei Stichproben.

Gültige Werte: linf_simple oder linf_robust.

categorical_comparison_threshold

Optional. Legt einen Schwellenwert für kategoriale Merkmale fest. Wenn der Wert im Datensatz den von Ihnen festgelegten Schwellenwert überschreitet, wird ein Verstoß im Verstoßbericht aufgezeichnet.

Gültige Werte: Gleitkommazahl..

Voreinstellung: Der dem comparison_threshold Parameter zugewiesene Wert

categorical_drift_method

Optional. Gibt für kategoriale Features die Berechnungsmethode an, die zur Erkennung von Verteilungsabweichungen verwendet wird. Wenn Sie diesen Parameter nicht festlegen, wird der K-S (LInfinity) Test verwendet.

Gültige Werte: LInfinity oder ChiSquared

Standard: LInfinity